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Editorial 


The Brazilian Computer Society (SBC) promotes annually the Brazilian Symposium on Databases 
(Simpésio Brasileiro de Banco de Dados — SBBD, in Portuguese). It has been the largest venue in Latin 
America for presenting and discussing research results in the database domain as well in other related 
areas such as information retrieval, digital libraries, knowledge discovery and data mining. In its 27th 
edition, the symposium will be held in the city of Sao Paulo, in the state of Sao Paulo, on October 15-18, 
2012. SBBD aggregates researchers, students and practitioners, from Brazil and abroad, for discussing 
problems and research results related to the main topics in modern database technologies. 


During SBBD, since 2004, a special session is dedicated to the presentation of database software 
aggregated with research solutions. This session, named Demonstrations Session (or Demos Session, 
for short), aims at divulging practical achievements among researchers, developers and professionals, 
from both academia and industry, interested in relevant and functional tools that use data/information 
management technologies to solve non-trivial problems. The demonstrations held in the Demos Session 
concern relevant problems related to data management technologies, providing interaction between 
researchers and practitioners. 


In this edition’s issue, we had 13 demos submissions, each paper was evaluated by 3 reviewers selected 
from a committee of 22 researchers from different Brazilian institutions. At the end of the reviewing 
process, the program committee selected 6 papers to be presented and demonstrated in the Demos 
Session. During the presentations of the demos they are assessed again by a committee, which will 
select the best demo. We thank all authors of submitted papers for their interest in the event. We also 
thank the reviewers committee for its prompt and careful evaluations. We would like to express our 
gratitude for their hard work, which was fundamental for this event to happen. 


We also congratulate the SBBD 2012 organizers for the local arrangements that provide the necessary 
infrastructure for Demos exposition, as well as to SBBD Steering for the continuous support given to 
SBBD Demos, including the eventual financial aid for students of accepted Demos to attend the 
symposium. 


We hope the SBBD 2012 Demos Session can awake great insights and many interaction opportunities for 
the Brazilian Database community. 


José Maria da Silva Monteiro Filho, DC-UFC 
Javam de Castro Machado, DC-UFC 
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CPrefSQL-Tool: Uma Ferramenta Web para Consultas com 
Suporte a Contextos e Preferéncias do Usuario 


Vinicius V. S. Dias', Sandra de Amo! 
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Universidade Federal de Uberlandia (UFU) — Uberlandia, MG — Brazil 


viniciusvdias@comp.ufu.br, deamo@ufu.br 


Abstract. In an ubiquitous computing scenario users access to databases will 
not occur at a unique context, and consequently their expectation when query- 
ing data will vary according to a multitude of parameters including location, 
time and surrounding influences. In this article we present CPrefSQL-Tool, a 
web tool allowing to execute queries and filter the results according to the user 
preferences and contexts. Some of the functionalities of the CPrefSQL-Tool are: 
(1) queries may be specified either by using standard SQL commands or by us- 
ing CPrefSQL, an extension of SQL with specific operators for computing the 
top — k and the most preferred tuples according to a set of contextual preference 
rules; (2) preference rules are easily specified by means of a simple and intu- 
itive interface; (3) queries are executed by using the CPrefSQL query processor; 
(4) the filtered results of a query execution are traceable and explained on user 
demand. 


Resumo. Num cendario tipico de computacdao ubiqua, os acessos dos usuarios a 
um banco de dados ndo ocorrem em um Unico contexto e consequentemente suas 
expectativas ao consultar os dados podem variar de acordo com uma multitude 
de parametros incluindo sua localizagdo, 0 momento presente e as influéncias 
do ambiente. Este artigo apresenta CPrefSQL-Tool, uma ferramenta Web que 
permite a execucdo de consultas e a filtragem dos resultados levando em consid- 
eracdo as preferéncias e o contexto do usuario. Algumas das funcionalidades 
de CPrefSQL-Tool sao: (1) as consultas podem ser especificadas por meio de 
comandos SQL ou por meio de comandos da linguagem CPrefSQL, uma exten- 
sdo de SQL com operadores especificos para computar as k melhores tuplas de 
acordo com um conjunto de regras de preferéncias contextuais fornecido; (2) 
as regras de preferéncia sao facilmente especificadas através de uma interface 
simples e intuitiva; (3) as consultas sao executadas por meio do processador 
de consultas da linguagem CPrefSQL; (4) os resultados filtrados apés a exe- 
cucdo de uma consulta podem ser rastreados e explicados caso o usuario assim 
o desejar. 


1. Introducao 

A incorporacao de recursos permitindo levar em conta as preferéncias e 0 contexto dos 
usuarios em mecanismos de busca ou em linguagens tradicionais de consultas em banco 
de dados tem despertado cada vez mais interesse na comunidade cientifica, abrindo 
possibilidades de pesquisa em areas como banco de dados, inteligéncia artificial e re- 
cuperacao de informagaéo. Isso pode ser observado em aplicagdes sensiveis a con- 
texto, como definigdes de perfis de usuario na Web [Suryanarayana and Hjelm 2002] 
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e computacaéo mével [Chen and Kotz 2000], que garantem uma experiéncia personal- 
izada para o usuario. No que diz respeito a area de banco de dados, a pesquisa tem 
se concentrado na incorporacgao de operadores de preferéncias as linguagens de con- 
sultas tradicionais para manipulacao de dados, como o SQL [de Amo and Pereira 2010, 
K.Stefanidis and E.Pitoura 2008]. Recentemente, foi proposta a linguagem CPrefSQL 
[de Amo and Pereira 2010], que estende 0 SQL padrao com dois operadores que per- 
mitem filtrar todas as melhores tuplas ou as k melhores tuplas de acordo com uma hierar- 
quia de preferéncias contextuais informada pelo usuario através de comandos especificos 
da linguagem. O modelo de preferéncias adotado em CPrefSQL adapta o formalismo 
l6gico de [Wilson 2009]. 

Neste artigo é apresentada CPrefSQL-Tool, uma ferramenta Web desenvolvida 
com o proposito de possibilitar que usuarios, entendidos ou nao da linguagem CPref- 
SQL, possam gerenciar e aplicar suas preferéncias num banco de dados de sua escolha. 
O foco principal deste trabalho esta em disponibilizar as funcionalidades da linguagem 
CPrefSQL através de uma interface simples e intuitiva. A ferramenta também permite 
ao usuario entender como o processador de CPrefSQL executa a filtragem das tuplas de 
acordo com as regras de preferéncias contextuais fornecidas pelo usuario. Mais ainda, 
a ferramenta permite comparar os resultados retornados por consultas tradicionais (SQL 
padrao) e consultas CPrefSQL. Esta disponivel em http://www.Isi.ufu.br/cprefsql. 


2. A Linguagem CPrefSQL 

A linguagem CPrefSQL possui trés funcionalidades basicas, que envolvem operacoes 
de (1) criagéo de preferéncias contextuais, (2) consulta de tuplas mais preferidas e (3) 
ranking de tuplas preferidas. A seguir, sera apresentada cada uma das funcionalidades da 
linguagem juntamente com seu comando correspondente. Considere, para os exemplos ao 
longo deste texto, um banco de dados composto pela relagéo hospedagem(hotel, cidade, 
avaliacao, preco, distancia, finalidade). Cada tupla desta relagao descreve uma opc¢ao de 
hospedagem, com informag6es de nome de hotel, localizagao, preco da didria, distancia e 
finalidade da mesma respectivamente. 


2.1. Criacao de Preferéncias Contextuais 

No modelo considerado, definimos uma preferéncia de usudrio como um conjunto de 
regras do tipo "if <contexto> then <preferencia>", onde <preferencia> da regra indica 
a vontade do usuario em uma situa¢ao que satisfaz 0 <contexto>. Dito isso, a criagao de 
uma preferéncia consiste em executar um comando CPrefSQL que recebe um conjunto de 
regras deste tipo e as armazena no catalogo do SGBDR (Sistema Gerenciador de Banco 
de Dados Relacional) através de um identificador. A Figura 1(a) ilustra 0 comando de 
criacao de preferéncias contextuais. O comando da Figura 1(b) ilustra a criagao de uma 
preferéncia sobre a relagdao hospedagem. Basicamente ele cria uma preferéncia com o 
nome "mypref-hospedagem"que envolve atributos da relagao hospedagem. Por exemplo, 
a primeira regra pode ser traduzida como:“‘Se a distancia for menor do que 500km, entdo 
prefiro hospedagens com didria inferior a R$ 250,00 desde que as finalidades respectivas 
das mesmas sejam idénticas. 


CREATE PREFERENCES CREATE PREFERENCES mypref-hospedagem 
<nome-pref> FROM hospedagem AS 
FROM <tabelas> AS IF distancia<500 THEN preco< 250 > preco> 250 [1,2,3] AND 
<regras-pref> IF preco>400 THEN avaliacao=5 > avaliacao=4 [1,2] AND 
(a) finalidade = ’férias’ > ones = 'trabalho’ [1,2,5] 


Figura 1. Sintaxe do Comando de Criagao de Preferéncias 
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2.2. Tuplas mais Preferidas e Ranking de Tuplas 

Apos a criagdo de uma preferéncia, a mesma pode ser usada em alguma consulta de 
CPrefSQL. Para entender como as preferéncias sao usadas pelo processador CPrefSQL, é 
necessArio discutir brevemente a semantica de um conjunto de regras de preferéncias. Um 
tal conjunto induz uma ordem natural sobre as tuplas de um banco de dados. Esta ordem 
constitui sua semdntica. Cada regra de preferéncia isolada induz uma relagao de dom- 
inancia entre as tuplas de forma natural. Por exemplo, considere as tuplas t; = (Excelsior, 
Madri, 3, 190, 400, férias) e t2 = (St Germain, Paris, 5, 300, 400, férias). A primeira regra 
“IF distancia<500 THEN (preco < 250) > (preco > 250) [1,2,3]” permite comparar ¢, 
e tz e concluir que ¢, é preferida a t, (ou t; domina tz). Repare que duas tuplas podem 
ser comparadas se elas indiferem nos atributos que nao aparecem na regra (finalidade - 
atributo 6). Os nimeros entre colchetes [1,2,3] referem-se respectivamente aos atributos 
hotel, cidade e avaliagdo que nao precisam ser idénticos nas duas tuplas a fim de que es- 
tas possam ser comparadas. A relacao de ordem final (ou relagao de domindncia entre as 
tuplas) correspondente a um conjunto de regras consiste em considerar a uniao das ordens 
induzidas por cada regra individualmente e depois considerar 0 fecho transitivo da relagao 
obtida. 


A relacao de dominancia pode ser visualizada através de um Grafo de Domindn- 
cia. Dado este grafo, diz-se que uma tupla ¢; domina uma tupla f2 se existir um caminho 
direcionado que parta de t; e chegue em tz. A auséncia de arcos entre tuplas indica tuplas 
indiferentes e arcos tracejados representam uma dominancia por transitividade. Assim, 
no exemplo da Figura 2, temos que: t, € dominante em relagao a tz e tz, tz € dominante 
em relagado at; mas dominada em relagao at}. 


t1 


Lo 3 


Figura 2. Grafo de Dominancia 


Deste modo, a ideia dos algoritmos que implementam a linguagem CPrefSQL é, 
justamente, percorrer todas as tuplas em questao e calcular a dominancia entre as mes- 
mas, que é definida para cada par de tuplas consideradas. No final resta a exibicao das 
tuplas escolhidas para a resposta de acordo com a operacao solicitada (mais preferidas ou 
ranking). 

Dois tipos de consultas podem ser feitas: (1) perguntar pelas tuplas que melhor se 
adequam a uma dada preferéncia de usuario; (2) pedir as top — k tuplas, isto é as primeiras 
k; tuplas preferidas de acordo com o ranking estabelecido pelas regras de preferéncias 
criadas. No primeiro tipo de consulta, as dominancias entre as tuplas sao calculadas e 
as consideradas dominadas (possuem pelo menos um arco de entrada de acordo com o 
Grafo de Dominancia correspondente) sao excluidas da resposta. Aqui, a ordem de apre- 
sentacao das tuplas do resultado nao tem significado, a nica certeza sobre elas é que sao 
preferidas (dominantes). No segundo tipo de consulta, as tuplas da resposta sao ordenadas 
em ordem decrescente de preferéncia e as k primeiras so retornadas. Essa ordenagao é 
feita do seguinte modo: (1) a cada tupla é associado um nivel, (2) de acordo com 0 Grafo 
de Domindncia, 0 processo € iniciado atribuindo-se o nivel 0 as tuplas que nao sao domi- 
nadas por nenhuma outra tupla (as que nado possuem nenhum arco de entrada), (3) para as 
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tuplas restantes, os seus respectivos niveis sao calculados pelo maior dos niveis de seus 
pais (dominantes) acrescido de uma unidade. Ao final, as k tuplas com o menor nivel 
entram na resposta da consulta e entre as de mesmo nivel 0 critério é pela sua ordem no 
banco de dados. Seguindo esse raciocinio, para o grafo da Figura 2: t; tem nivel 0, t2 tem 
nivel 1 (max(0) + 1) e tz tem nivel 2 (max(0,1) + 1). Portanto, pode-se organizar as tuplas 
na seguinte ordem decrescente de preferéncia: t; , tg e tz. 

A Figura 3(a) ilustra 0 cddigo do bloco padrao de uma consulta SQL fornecendo 
as k tuplas preferidas. Caso se deseje todas as tuplas preferidas (néo dominadas), o 
parametro k é instanciado como -1. O comando da Figura 3(b) recupera as 3 tu- 
plas mais preferidas da relagéo hospedagem de acordo com as regras de preferéncia 
mypref_hospedagem especificadas na Figura 1(b). 


SELECT <lista-atributos> SELECT «x 

FROM <tabelas> FROM hospedagem 

[WHERE <restricoes-where>] ACCORDING TO PREFERENCES 
ACCORDING TO PREFERENCES (<nome-pref>, <k>) (mypref—hospedagem, 3); 


[GROUP BY <lista-atributos>] 
[ORDER BY <lista-atributos>] 


* Os comandos apresentados entre colchetes sdo 
opcionais. 
(a) 


Figura 3. Bloco padrao de CPrefSQL para as k tuplas mais preferidas 


3. As Funcionalidades da Ferramenta CPrefSQL-Tool 


Gerenciamento de Banco de Dados: Todo o gerenciamento do banco de dados padrao 
que nao envolve preferéncias pode ser realizado dentro da propria ferramenta. Gerencia- 
mento de Preferéncias: Permite criar, alterar, e excluir regras de preferéncias contextu- 
ais. Estas operagdes podem ser realizadas através de comandos CPrefSQL ou através de 
uma interface de mais alto nivel. Aqui, o usuario podera entrar suas regras de preferéncias 
contextuais. O conjunto de regras de preferéncias é criado pelo sistema e um identificador 
é associado ao mesmo. Através deste identificador, as preferéncias podem ser alteradas 
e/ou excluidas futuramente. A interface permite que isso seja feito sem a necessidade 
de se conhecer a sintaxe da linguagem CPrefSQL, ou seja, o usuario pode criar regras 
contextuais, associa-las a uma preferéncia e fazer consultas sobre a mesma sem a neces- 
sidade de um conhecimento especifico dos comandos apresentados nas Figuras 1 e 3. A 
Figura 4 ilustra a interface de insercao das regras de preferéncias pelo usuario, correspon- 
dente ao comando de cria¢ao de preferéncias apresentado na Figura 1(b). Configuracoes: 
As configuragdes permitem ao usuario a portabilidade entre ambientes e a customiza¢ao 
do acesso a ferramenta, como disponibilizado pela maioria dos SGBDs. Sao elas: (A) 
Acesso — bancos de dados locais ou remotos; (B) Diretério de preferéncias — Todo 
o armazenamento, exclusdo e edicdo de preferéncias sera feito neste diretério (padrao: 
/var/lib/pgsql/); (C) Visualizacgao do Resultado — resultado da consulta CPrefSQL com 
ou sem o resultado da consulta realizada com SQL padrao, permitindo a comparag¢ao en- 
tre dois cenarios (com e sem preferéncias). (D) Rastreamento de Resultado — relaciona 
as regras de preferéncia com a resposta dada de uma consulta submetida através de um 
registro que mostra as relagdes de dominancia entre as tuplas, dando uma nogao do fun- 
cionamento dos algoritmos da linguagem CPrefSQL; (E) Construcao de Consultas — 
submissao de consultas usando a sintaxe de CPrefSQL ou alternativamente usando a sin- 
taxe padrao de SQL incluindo a escolha de um conjunto de regras de preferéncias através 
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de seu nome (ou identificador). Tais regras j4 devem ter sido criadas através do comando 
CPrefSQL (ver Figura 1(a)) ou usando a interface da ferramenta propria para isso. 


() Create Preference 


G |@ locathost:8080/C PrefSGLTool 


Home SQL Settings CPrefSQL Help 


Tables* 


Mhospedagem 
movies 
oK 


Preference Name* 


|mypref_hospedagem 


distancia _¥| {(\/500 [  ()} 


Prefer 


ee 


preco_v] ((]{ [250 )] wPreteneate ([]f250 | () 


OuputRules. 


IF preco>400 THEN avaliacao=5 > avaliacao=4 (1,2) @ 0 
finalidade=Yerias’ > finalidade=trabalho' [1,2,5] eo 


Create # 


Table(s) sucessfully selected 


Figura 4. Interface de Insercao das Regras de Preferéncias 


Execucao de Consultas: De acordo com a configura¢ao feita em (E), 0 usuario (1) insere 
a consulta SQL e o nome do arquivo de preferéncias ou (2) insere o comando CPrefSQL 
correspondente 4 sua consulta (caso conheg¢a seja familiarizado com a sintaxe desta lin- 
guagem). A Figura 5 ilustra a execugao da consulta da Figura 3(b), em que as seguintes 
configuragdes foram declaradas: (C) apresentar apenas o resultado da consulta CPref- 
SQL, (D) rastreamento de resultado desativado e (E) definido como SQL padrao mais a 
escolha do nome de um conjunto de regras de preferéncia criado. 


AMS 


GE [© tocathost:8080/¢PrefSQL Tool ToolContral eM a 


Home SQL Settings CPrefSQL Help 


[Select * from hospedagem 


Select preference’: [mypref_hospedagem ¥ 
How many top tuples 7/3 

Output Visualization © CPrefSQL only 2 SQLICPrefSQL 
Result tracking on ® off 


(Execute #1 


CPrefSQL Result 
Poet) ate Tavatacas | eco] tsar | att 
Belo Horizonte Plaza Belo Horizonte 5 234 556 trabalho Ly 
Ouro Minas Palace Belo Horizonte 4 234 556 ferias 
Nacional Brasilia 4 460 433 ferias 


Figura 5. Execugao de uma consulta 


4. Implementacao e Ambiente 

A ferramenta foi implementada como uma aplicagao Java-Web por motivos de porta- 
bilidade. Assim, a aplicagao oferece a interface para manipulacao de preferéncia sobre 
bancos de dados armazenados em um SGBDR, local ou remoto. Além disso, devido as 
caracteristicas originalmente propostas para a linguagem CPrefSQL e suas extens6es, a 
ferramenta usa 0 PostgreSQL como SGBDR. A arquitetura simplificada da ferramenta 
pode ser observada na Figura 6. Assim: (1) um usuario interage com o servidor Web da 
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ferramenta através de uma interface HTTP Requisicao/Resposta, (2) o servidor se comu- 
nica com o banco de dados através de consultas (SQL ou CPrefSQL) e obtém respostas 
do mesmo, (3) no caso de a requisigao ao SGBDR envolver preferéncias CPrefSQL, é 
necessario que o processador de consultas se comunique com 0 diret6rio de preferéncias. 
Outro ponto importante é que o gerenciador de banco de dados a ser usado deve 
suportar a linguagem CPrefSQL, demandando uma pré-configuracgao desse ambiente. 


mS © 3 @ — 
= <—_——_——_—_—P 
= = a4 — 
= PostgreSQL Dir. Prefs. 
Usuario + 


CPrefSQLTool 


(Tomcat) crrensal 


Figura 6. Arquitetura da ferramenta CPrefSQLTool 


5. Conclusoes e Extensdes Futuras 


Neste artigo foi apresentada CPrefSQL-Tool, uma ferramenta Web que permite a exe- 
cucao de consultas com suporte a preferéncias e contextos do usuario de forma simples e 
amigavel. Com estas caracteristicas, CPrefSQL-Tool é capaz, através do exercicio pratico, 
de estabelecer fortes vantagens em se utilizar linguagens com suporte a preferéncias como 
a CPrefSQL. Neste aspecto, 0 objetivo é que um usuario possa criar preferéncias sobre 
um banco de dados qualquer e, através de consultas envolvendo as mesmas, perceber as 
diferengas na resposta obtida quando comparada a uma consulta SQL padrao. Diferengas 
que, em geral, fazem com que a partir de uma linguagem com suporte a preferéncias os 
piores casos (consultas sem resposta ou com respostas inviavelmente volumosas) sejam 
evitados. Um trabalho futuro é a incorporagao de um modulo de mineracao de preferén- 
cias [de Amo et al. 2012, da Silva and de Amo. 2011] na ferramenta, possibilitando uma 
funcionalidade de extracao automatica de preferéncias do usuario a partir de suas escolhas 
passadas. 


Referéncias 


Chen, G. and Kotz, D. (2000). A survey of context-aware mobile computing research. Technical report 
tr2000, Departament of Computer Science, Dartmouth College, Hanover, New Hampshire, USA, page 
381. 


da Silva, N. F. F. and de Amo., S. (2011). Cprefminer: A bayesian miner of conditional preferences. Journal 
of Information and Data Management (JIDM), 2 (1):35-42. 


de Amo, S., Diallo, M. S., Diop, C. T., Giacometti, A., Li, H. D., and Soulet, A. (2012). Mining contextual 
preference rules for building user profiles. In 14th International Conference on Data Warehousing and 
Knowledge Discovery - DaWaK 2012, Vienna (Austria). 


de Amo, S. and Pereira, F. (2010). Evaluation of conditional preference queries. Journal of Information 
and Data Management (JIDM)., 1(3):521-536. 


K.Stefanidis and E.Pitoura (2008). Fast contextual preference scoring of database tuples. In Proceedings 
of the International Conference on Extending Database Technology (EDBT), pages 344-355. 


Suryanarayana, L. and Hjelm, J. (2002). Profiles for the situated web. 11th International World Wide Web 
Conference (WWW 2002), pages 200-209. 


Wilson, N. (2009). Extending cp-nets with stronger conditional preference statements. AAAT. 


Simposio Brasileiro de Bancos de Dados - SBBD 2012 
Demos e Aplicagdes 


SAHA: sistema para acompanhamento holistico de atletas 


Frederico C. da Silva', Fabio Porto'!, Ana Maria de C. Moura!, Daniele C. Palazzi', 
Luis Eduardo Viveiros de Castro**, Adriana Bassini*, L. C. Cameron?’ 


‘Extreme Data Laboratory (DEXL Lab) 
Laboratério Nacional de Computagao Cientifica (LNCC) 
Petropolis — RJ — Brasil 


*Comité Olimpico Brasileiro - COB 
Rio de Janeiro — RJ — Brasil 


sLaborat6ério de Bioquimica de Proteinas (LBP) 
Universidade Federal do Estado do Rio de Janeiro (UNIRIO) 
Rio de Janeiro — RJ — Brasil 


{fredcs, fporto, anamoura, dpalazzi}@lncc.br, 
luis.castro@cob.org.br, abassini@me.com, cameron@unirio.br 


Abstract. Human Centric computing is a new area that places the human being at 
the heart of systems’ functionality. In this work we present a system of this kind 
that supports the follow-up of high performance athletes. The system is structured 
on the follow-up of variations of athlete’s observable conditions in time. A mobile 
object trajectory conceptual model has been adapted to model the variations of 
observable conditions on a virtual space, which has been named metaphoric 
trajectories. This system enables registering and analyzing athlete’s metaphoric 
trajectories of different observable elements, such as heartbeats, glucose, lactose, 
etc., and even the athlete ‘s psychological estate. The metaphoric trajectory model 
supports interesting time-variation analyses that put into perspective the organic 
behavior of different athletes of the same discipline with impacts on athlete 
nutrition and training planning. This system is being used by the Brazilian 
Olympic Committee (COB) and will support Brazilian athlete‘s follow-up during 
the Olympic Games. 


Resumo. Sistemas computacionais centrados no Ser Humano é uma nova area 
que coloca o ser humano como elemento central da funcionalidade do sistema. 
Neste trabalho, apresentamos um sistema que tem por objetivo acompanhar 
Atletas de alto rendimento. Este sistema tem por objetivo monitorar variacées 
das condicées dos atletas relacionadas a algumas de suas caracteristicas 
fisiol6gicas, que variam no tempo. Um modelo conceitual de trajetorias para 
objetos méveis foi adaptado para as variacées das condicées observadas em um 
espaco virtual, aqui denominadas trajetorias metaforicas. Esse sistema permite 
registrar e analisar as trajet6rias metaforicas dos atletas de diferentes elementos, 
tais como batimento cardiaco, glicose, lactose e mesmo, a variacdo do estado 
psicolégico do atleta. O modelo de trajetéria metaforica suporta andlises 
interessantes que variam no tempo, colocando em evidéncia o comportamento 
orgdnico de diferentes atletas de mesma _ modalidade, influenciando o 
planejamento nutricional e de treinamento dos mesmos. Atualmente, o sistema 
SAHA esta em utilizacdo no Comité Olimpico Brasileiro. 
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1. Introducao 


Obter os trés primeiros lugares em um pddio olimpico exige mais do que talento e 
treinamento. Recentemente, o presidente do Comité Olimpico Brasileiro (COB) declarou 
seu objetivo de colocar o Brasil, até 2016, entre os dez primeiros no quadro geral de 
medalhas olimpicas. Para atingir esse objetivo, o COB criou o Laboratorio Olimpico (LO) 
com sede no Rio de Janeiro. O LO é o primeiro Centro Olimpico de Pesquisa Latino- 
Americano e tem como finalidade integrar diferentes areas da ciéncia, visando aplicar 
técnicas multidisciplinares para aumentar o desempenho dos atletas. 


O LO é um exemplo tipico do que se tem chamado de Computac¢ao Centrada no 
Homem (Kling 1997). A partir de dados coletados de atletas durante seu periodo de 
treinamento, pesquisadores do LO investigam caracteristicas fisico-bioquimicas que possam 
melhorar seus resultados. Neste sentido, diversas medig6es sao realizadas com o atleta, 
incluindo a coleta de sangue para andlise, anotacgdes da frequéncia cardiaca e tabelamento 
do proprio atleta sobre sua alimentagao. A visao centrada no atleta pretende integrar e 
analisar essas informag6es conforme sua variacgao durante os treinos e ao longo do periodo 
de preparagao para competicao. 


De forma a apoiar a etapa de preparacgao de um atleta, um Data Warehouse (DW) 
foi projetado com a finalidade de monitorar elementos de interesse observacionais, aqui 
denominados elementos observdveis (EO), através de suas variagdes no tempo e conforme o 
estado do atleta. Assim, para que o DW fornecga uma visao integrada composta de multiplos 
EO, adotou-se um modelo de representagao candnico baseado no modelo de trajetérias de 
objetos méveis Spaccapietra et al. (2008). Nesta adaptacao, objetos moéveis sao substituidos 
pelos EO, cujos valores coletados variam no tempo e em um espa¢o virtual formado pelo 
dominio de seus valores, compondo o que chamamos de trajetoria metaf6rica Porto et al. 
(2011). O DW concebido tem como fatos: as medigdes dos EO, que ao longo de um ciclo 
de treinamento formam uma trajetoria e, dimens6es de andlise das condigées do atleta, a 
exemplo do nivel de glicose no sangue, peso, estado do treinamento, objetivo da avalia¢ao, 
etc. 


A modelagem do DW adotada permite que o sistema realize andlises com 
agregacOes obtidas diretamente das medigdes, bem como das agregagdes de medigdes em 
trajetorias. Nestas ultimas, o perfil das curvas fornece informag6es relevantes tanto sobre o 
comportamento individual do atleta como no aspecto coletivo, quando curvas de um mesmo 
EO de varios atletas podem ser comparadas. 


Neste contexto, este trabalho apresenta o SAHA, um sistema que implementa um 
DW para o acompanhamento holistico de atletas. O esquema do banco de dados foi 
implementado em PostgreSQL, cujo mddulo cliente da aplicagdéo, desenvolvido em Java, 
permite o cadastramento das dimens6es envolvidas e a entrada das medi¢oes. Estas tltimas 
sao extraidas automaticamente a partir dos resultados de exames dos atletas, ou inseridas 
manualmente pelo atleta ou por um técnico. 


O restante deste trabalho encontra-se organizado em 5 secées, da seguinte forma. A 
secao 2 contempla os trabalhos relacionados; a segdo 3 aborda a formalizacéo do modelo de 
trajetorias e o modelo do DW; a secao 4 apresenta algumas consultas elaboradas com o 
sistema, cuja anadlise dos graficos gerados levou a resultados importantes sobre os atletas 
monitorados. Por ultimo a secao 5 tece algumas conclus6es sobre o trabalho. 
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2. Trabalhos Relacionados 


Nos Ultimos anos, varios sistemas foram desenvolvidos com a finalidade de monitorar os 
atletas. No entanto, os trabalhos encontrados na literatura apontam para trabalhos focados 
em pontos de observacao especificos de atletas. Busso et. al. (1997) desenvolveram um 
modelo de adaptag6es para o treinamento fisico, com base em um algoritmo recursivo de 
minimos quadrados. O desempenho (output) foi matematicamente relacionado com as 
cargas de treinamento (input), através de uma fungao de transferéncia, incluindo dois filtros 
de primeira ordem, um com um ganho positivo, atribuido para a adaptacao ao exercicio, e 
um com o ganho negativo, atribuido ao efeito fatigante das cargas de treinamento. O 
desempenho do modelo é obtido por convolugao das doses de treino, quantificado a partir 
do nivel do exercicio e tempo, para a resposta ao impulso. 


Ja Cormack et. al. (2008) propuseram avaliar as variagdes do estado neuromuscular 
e hormonal e sua relagéo com o desempenho ao longo de uma temporada de jogadores de 
elite do Australian Rules Football (ARF). No método desenvolvido, os jogadores 
realizavam saltos unicos e saltos contra o movimento, e a saliva era coletada para medir os 
niveis de cortisol e testosterona, antes e durantes os 22 jogos da temporada. A partir dessas 
informagdes foram criadas correlagdes para analisar as relagdes entre as varidveis da 
avaliagao e a duracao do jogo, a carga de treino e o desempenho do atleta. 


Até onde pudemos investigar, nao foi encontrado na literatura nenhum sistema de 
acompanhamento de atletas focado na andlise de uma variada gama de elementos, que vao 
desde elementos bioquimicos até condi¢ées fisioldgicas e nutricionais. O sistema SAHA, no 
entanto, além de ser um sistema Web, se diferencia pelo fato de possibilitar o 
monitoramento de atletas de alto desempenho, sob diversos aspectos varidveis no tempo. 


3. Modelo de Dados Olimpico 


O conceito de trajetéria tem sido utilizado em um grande numero de aplicagdes que 
envolvem objetos em movimento, tais como: veiculos e pessoas equipados com dispositivos 
GPS (Global Positioning System), encomendas etiquetadas com RFID (Radio-Frequency 
Identification), etc. Nesta segéo, nos concentramos em um tipo particular, chamado 
trajetorias metaféricas, com enfoque nos dados oriundos do acompanhamento de atletas 
coletados em diferentes ciclos de treinamento. 


3.1 Modelo de Trajetérias 


O modelo de trajetorias adotado neste trabalho estende o proposto inicialmente por 
Spaccapietra et al. (2008), cujas trajetorias eram analisadas sob a perspectiva de um objeto 
variando no espaco-tempo. No modelo de trajetéria estendido, uma trajetoria é definida 
como um registro da evolucdo da posi¢do — percebida como um ponto — de um objeto que 
se move no espaco durante um dado intervalo de tempo, a fim de atingir um objetivo. 
Também pode ser considerado como uma sequéncia de movimentos que vai de um ponto de 
parada ao ponto subsequente. Além disso, 0 conceito de trajetoria metaférica surge para 
definir a evolucdo de objetos que nao estao relacionados ao movimento fisico, tal como a 
trajetoria de uma pessoa, ou 0 processo de crescimento de uma crianga, etc. 


Assim sendo, nosso modelo de trajetoria estendido é composto pelas entidades: 
trajetoria, movimento e medicdo (ver Figura 1). Nesse contexto, as medidas relacionadas a 
uma variavel particular do atleta €é modelada como uma trajetoria metaférica em extensdo 
ao senso comum sobre as trajet6rias que consideram a variagéo de um objeto no espa¢o- 
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tempo. As trajet6rias metaféricas correspondem as variagdes de uma variavel do atleta ao 
longo de estados em um ciclo de treinamento. 


Vale ainda observar que a entidade trajetdria apresenta uma visao global da mesma, 
enquanto a medic¢do e movimento representam a forma pela qual os mesmos sao percebidos, 
i.e., oS valores obtidos durante a trajetéria. Nesse caso, cada trajetéria tem exatamente um 
inicio e um fim, um ou mais movimentos e zero ou mais paradas, onde o numero de paradas 
determina 0 numero de movimentos. 


3.2 Modelagem do DW 


Esta segaéo descreve a modelagem de dados utilizada na implementacgao do sistema de 
acompanhamento de atletas. A Figura 1 representa uma sintese do DW que utiliza as 
medigdes e as trajetérias metaforicas como fatos, e como dimensdes o estado do 
treinamento (rotina), o atleta, elemento observavel, e as avaliagodes. 


conceito de rotina (dimensao) 


Rotina Rotinalnstanciada 
? idRotina: INTEGER @ idRotinalnstanciada: INTEGE 


@ idAtleta: INTEGER (FK) > @ idEstado: INTEGER (Fk) 


@ nomeRotina: VARCHAR(100) : pea ai igy 


@ datalnicial: DATE 
x @ dataFinal: DATE 
@ horalnicial: TIME 
@ horaFinal: TIME 


@ datalnicial: DATE Estado ail 


@ dataFinal: DATE ¥ idEstado: INTEGER 
@ horalnicial: TIME @ nomeEstado: VARCHAR(100) 
@ horaFinal: TIME 


(dimensao) 


Avaliacaa F modelo de trajetoria (Fato) 
} idAvaliacao: INTEGER 


@ idRotina: INTEGER (FK) 


@ localAvaliacao: VARCHAR(500) Medicao 
@ tipoAvaliacao: CHAR > ¥ idMedicao: INTEGER 
@ idTrajetoria: INTEGER (FK) 
_ a @ origemMovimento: INTEGER (FK) 
¢ (dimensdao) @ destinoMovimento: INTEGER (FK) + Movimento 7 
@ idElementoObservavel: INTEGER (FK) ¥ idMovimento: INTEGER 
ElementoObservavel wi @ idRotinalnstanciada: INTEGER (FK) > 
} idElementoObservavel: INTEGER > @ idAvaliacao: INTEGER (FK) 
@ nomeElementoObservavel: VARCHAR(100) @ valorMedicao: DOUBLE 
@ custoElementoObservavel: DOUBLE © horaMedicao: TIME 
@ mnemonicoElementoObservavel: VARCHAR(25) @ tipoBES: CHAR 
. ~ 
(dimens&o) ° & 
Atleta it Trajetoria 
@ idAtleta: INTEGER ¥ idTrajetoria: INTEGER 
® nomedtleta: VARCHAR(100) » @ idAtleta: INTEGER (FK) 
@ generoAtleta: CHAR 


@ idElementoObservavel: INTEGER (FK) 


@ nascimentoAtleta: DATE 
@ mnemonicoAtleta: VARCHAR(25) 


Figura1. Sintesedo modelode dados 


O conceito de rotina, composto pelas entidades: rotina, rotina instanciada e estado 
(ver Figura 1) é responsdvel por mapear os ciclos de atividades de um atleta, com 
informagdes_ estratégicas (estados), auxiliando o especialista na avaliagéo sobre a 
intensidade de um dado ciclo de treinamento ao qual é submetido. Esses ciclos de 
treinamento (rotina) contemplam diferentes sequéncias de acontecimentos (rotinas 
instanciadas). Além disso, sao ordenadas cronologicamente e independentes de medig¢oes. 


A entidade elemento observdvel (EO) descreve o elemento a ser observado em um 
atleta, dentre os quais podemos citar: nivel de glicose, peso, pressdo cardiaca, lesdo 
muscular, tempo gasto para percorrer uma dada distancia, etc. A coleta da informacao 
relacionada ao EO, aqui chamada de medicao, pode consistir de um unico valor (discreto) 
ou uma sequéncia de valores que compdem uma trajetoria. 
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O resultado de um EO discreto refere-se a uma ocorréncia Unica dentro de um ciclo 
pré-definido, como por exemplo: a ingestéo de um suplemento nutricional, a ocorréncia de 
uma lesao, etc. Jé quando o EO resulta em uma trajetéria, é porque a medicaéo do EO 
ocorreu mais de uma vez dentro de um ciclo pré-definido de tempo. Vale ressaltar que 
ocorréncias discretas de EO iguais poderao ser observadas como trajetorias se os diferentes 
ciclos em que ocorreram forem “aproximados”. 


A entidade atleta representa o atleta propriamente dito, sendo o provedor de 
informagdes analisado sob inimeras condigdes e perspectivas. A entidade avaliacdo é 
responsavel por identificar a origem motivadora da medi¢ao no qual o atleta esta envolvido. 
Essas informagdes podem variar de aspectos geograficos (ex.: atleta em competi¢ao 
internacional de Jud6 — Téquio — Japao) para detalhes da medicao do EO (ex.: EO obtido 
através de coleta sanguinea). 


4. Analise Comparativa de Trajetorias 


O modelo de dados tem como principal objetivo abordar 0 conceito de trajetorias sobre as 
informagdes dos atletas. De modo a analisar 0 modelo quanto a sua capacidade em 
responder questdes relacionadas ao desempenho dos atletas, algumas consultas chaves 
foram elaboradas. Estas sao descritas a seguir, juntamente com uma analise sobre os 
resultados obtidos. 


Cadastro Evento Carga Gréficos 


Trajetorias crescentes (Atleta B) de: Trajetorias com inicio menor que final (Atleta B) de: Média aritmética e Desvio padrao 
01/05/2012 a 01/06/2012 01/05/2012 a 01/06/2012 


9 
100 a 


Exames 


QS 
on 
RS 

8 
“6 


ag 


Exames 
Hemoglobina C Dosagem (L) 


it 2 3 4 
C Feminino 100m peito (Natac4o) 


@ de: 11/06/2011 4 08/06/2013 


Atleta B (Magnésio) base de maximos e minimos de: 05/06/2011 a 09/06/2013 


Magnésio (L) 
? 


alongamento Repouso almoco aquecimento Treino 


D estados 


-© Glicemia media estimada (L) - 01/05/2012 ~* Fosfolipideos (L) - 01/05/2012 }@ Atleta B (base de intervalo) -® Atleta B (09/05/2012) ~* Atleta B (01/05/2012) © Atleta B (02/05/2012) 


Figura 2. Graficos resultantes das consultas. (A) Trajetorias crescentes; (B) Trajetorias com extremidade 
inicial maior que extremidade final; (C) Média aritméticae desvio padrao e (D) Trajetorias encontradas a 
partirde maximose minimosde umatleta base. 


Os resultados obtidos na execu¢ao das consultas sao exibidos na Figura 2. As 
trajetorias crescentes! de um atleta (Figura 2 (A)), consideram todos os exames avaliados 
em um intervalo de tempo para todos os estados de observa¢ao ordenados. De acordo com 


1 O sistema também permite variagdes decrescentes. 
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os especialistas, identificar trajetérias cujos valores observados formam uma curva 
crescente pode apontar para um comportamento anormal de um atleta com respeito a um 
dado elemento. Outro desdobramento sao as trajet6rias que apresentam a medi¢ao do estado 
inicial maior que o estado final ou vice-versa (ver Figura 2 (B)), nesse caso, apenas as 
extremidades da trajet6ria sio comparadas com base nas avaliagdes para os elementos de 
observacgao num periodo determinado. Esse tipo de avaliagdo pode contribuir, por exemplo, 
para indicar se um determinado elemento observavel esta de acordo com os valores 
esperados, desprezando os estados intermediarios. Os graficos da média aritmética e desvio 
padrao (Figura 2 (C)) servem para ilustrar a dinaémica do sistema. Nesse caso, a referida 
consulta nao utiliza o modelo de trajetérias para obter as informag6es, mas sim, o resultado 
das medig6es agrupadas por modalidade esportiva. Essa consulta, aparentemente simples, 
possibilita a analise do comportamento dos elementos observacionais frente aos diferentes 
tipos de modalidade permitindo, por exemplo, classificad-las por similaridade quanto ao 
esforco realizado. Finalmente, com uma maior complexidade, a Figura 2 (D) ilustra os 
resultados da consulta para aqueles atletas que possuiam ocorréncias de valores em estados 
iguais ao de um atleta base. Os resultados dessas medig6es estavam entre os valores de 
maximos e minimos delimitados pelo atleta base, para um dado EO. Esse tipo de 
informacao resultante é interessantissimo pois podera, por exemplo, auxiliar os especialistas 
na percepcao de atletas jovens que possuem perfil aproximado ao de atletas consagrados. 


5. Conclusao 


Esse trabalho apresentou o sistema SAHA, desenvolvido para monitorar atletas de alto 
desempenho durante suas fases de treinamento. Baseado na nocgao de _trajetérias 
metaf6ricas, esse sistema permite registrar e analisar trajetérias relativas ao treinamento de 
atletas sob diferentes elementos, permitindo aos especialistas tirarem conclusdes 
importantes sobre os resultados graficos obtidos. Trata-se de um sistema desenvolvido para 
a Web e, segundo nosso conhecimento, este é 0 primeiro sistema a explorar 0 conceito de 
trajetorias metaforicas, representando uma contribuicdo significativa para a area de 
Computacao Centrada no Homem. 
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Abstract. Content-Based Medical Image Retrieval (CBMIR) has been used in 
the medical field to assist several tasks, from training to computer-aided diag- 
nosis. However, there are several gaps that must be filled to approximate the sys- 
tem’s retrieval quality and performance over large image databases to the user’s 
similarity perception and needs. This paper presents the Higiia, a modularized 
CBMIR system that integrates several consolidated techniques that compose the 
similarity query process, including feature extractors, distance functions and 
indexing structures for complex data, and allows the user to set custom parame- 
ters that best represent his/her perception. Results of experiments at the Clinical 
Hospital of the USP-RP are also presented, where the system is under test. 


1. Introduction 


With the increasing availability of radiological scanners, imaging dianosis has growing at 
a fast pace. Content-Based Medical Image Retrieval (CBMIR) systems are applications 
developed to improve the retrieval effectiveness of images generated by radiologic exams 
based on the images’ visual content. CBMIR systems are specially useful in Case-based 
Medicine, which highly rely on past similar cases for diagnosing a new one. Similarity 
queries are typical in these systems, such as: “which are the patient studies that contain 
the RX images most similar to the RX image of a given (undiagnosed) patient’? 


This scenary highlights two main challenges: (i) to improve the existing tech- 
niques to help specialists to search and analyze medical images based on their content, and 
(ii) to provide methods to support such analysis over the huge medical image databases 
maintained by the healthcare institutions. The first challenge is referred in the literature 
as the Semantic Gap, which is the mismatch between the user notion of similarity and the 
similarity computed by the CBMIR systems relying on features automatically extracted 
from the images [Giild et al. 2007]. One effort to mitigate the semantic gap is to introduce 
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aspects in the CBMIR system that reflect the user perception, which is highly dependent 
on the application’s context. The second challenge demands employing a robust mecha- 
nism to store/manage images and specialized indexing structures and algorithms to query 
large medical image databases. 


This paper presents the Higiia, which is a CBMIR software including support for 
perceptual retrieval of medical images. The main strengths of Higiia are that it natively 
supports images in the DICOM format (the standard in the medical field), it allows han- 
dling subsets of the enterprise medical image database, building distinct medical contexts 
through filters over the DICOM metadata, it allows setting up perceptual parameters on- 
the-fly, adjusting the similarity evaluation to the specific image context, and it relies on 
a fast and robust retrieval engine executed over a DBMS. The paper also presents an 
interface implemented on Higiia for assisting specialists in the classification of mammo- 
grams. This Higiia instantiation is being used in experiments at the Clinical Hospital of 
the Faculty of Medicine of Ribeirao Preto of the University of Sao Paulo. 


2. Related Work 


There are several works employing content-based image retrieval tecniques in the medical 
field [Deserno et al. 2009, Akgiil et al. 2011]. Despite of the advances in CBMIR there 
still are many challenges for including this technology in the clinical pratice. From the 
medical point of view, several studies, such as [Depeursinge et al. 2011], suggest that 
one of the main limitations the CBMIR paradigm is the lack of interactive tools that 
allow the specialist to test and validate what is really similar regarding his/her perception. 
This kind of application requires putting together knowledge of computer science and 
of medicine/radiology and it is still demanded to bridge several gaps between the user 
expectation and the system results. 


Deserno et al. suggested in [Deserno et al. 2009] a systematic view of gaps in 
CBMIR research, which organize them in four broad categories: content gaps, features 
gaps, performance gaps and usability gaps. The content gaps encompass the user’s under- 
standing of image and the clinical context of use of the system. The features gaps include 
the methods employed to extract and represent numerically the image features and their 
limitations. The performance gaps address the answer speed and the integration with 
other patient care information systems. Finally, the usability gaps include the query types 
available and the system ability of learning from user feedback. Analyzing the existing 
works in CBMIR according to this systematic view of gaps, it can be noticed that, in gen- 
eral, they focus either on the semantics/quality of the results (usually providing at most a 
rough description of the implementation details) or in the system/query performance. Ex- 
amples include the SMIRE (Similar Medical Image Retrieval Engine) [Cheng et al. 2005] 
and the FIRE (Flexible Image Retrieval Engine) system [Deselaers et al. 2004]. On the 
other hand, there are other systems, such as MedFMI-SiR [Kaster et al. 2011], which 
present high flexibility and performance, being adequate to handle huge image databases. 
However, these systems only provide the basis of CBMIR, requiring the development of 
specialized features and of the end user applications. 


The CBMIR system presented in this paper covers gaps in breadth. Regarding the 
content and the features gaps, our system is able to define semantic contexts through the 
definition of perceptual parameters. Humans consider several visual patterns when com- 
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paring images, associating different relevances to these patterns according to their per- 
ception and background. Perceptual parameters are keywords in the application domain 
that aim at discriminating which visual characteristics have stronger/subtler influence in 
the user’s notion of similarity, allowing defining the combination between the feature ex- 
tractor and the distance function, as well as their fine tune settings, that best represents the 
user perception [Ponciano-Silva et al. 2009]. Regarding the performance gaps, our sys- 
tem adheres to standards, handling DICOM images natively and relying on a robust and 
efficient SQL-based storage system, as its backend is based on the MedFMI-SiR mod- 
ule over the Oracle DBMS. Finally, regarding to the usability gaps, our system is able to 
answer queries using DICOM metadata and/or similarity conditions and it provides rele- 
vance feedback and query refinement methods. These characteristics allow joining several 
techniques to provide retrieval interfaces for several medical routines, as the interface for 
mammogram classification enhanced with CBMIR presented herein. 


3. The Architecture of the Higiia System 


Interface i Standard queries : : MedFMI-SiR 
A : t Metadata-based : gobanonanneaneanonannpanebanebanenatopaneeatg 
aa aetna Sete a queries 7 
Query Subsystem se ae 
Feature Extractor eiiede ere nage ara : 
‘Relevance Feedback : i 
j Mod: : Images 
Hospital i 
Image Processing Library ‘ Metadata Image Features | 
Database 


Figure 1. Overview of the Higiia system’s architecture. 


The Higiia system is composed by a set of modules, as illustrated in Figure 1. 
The Feature Extractor is the module responsible for extracting the visual features from 
the images. The Feature Extractor interacts with the Image Processing Library, which 
provides a common interface for image processing and presentation that allow attaching 
third party image processing libraries. Currently the Image Processing Library interacts 
with the libraries DCMTK! for manipulating DICOM images and OpenCV? for other 
formats. The Query Subsystem receives the queries from the user interface, construct the 
statements and invoke the DBMS to execute them. The hospital image database and the 
image features are stored in the DBMS as BLOB columns, and the associated metadata 
are stored using traditional or XML data types. The query types supported include stan- 
dard queries (i.e. queries employing conventional attributes), DICOM metadata-based 
queries and content-based queries. The content-based queries are executed over Metric 
Access Methods (MAMs) using the MedFMI-SiR module installed on the DBMS, provid- 
ing an efficient and scalable retrieval. The Query Subsystem include Relevance Feedback 


"http://dicom.offis.de/demtk.php.en 
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methods for interactively tuning the queries to achieve better results. The Query Subsys- 
tem also collects information during the users’ interactions, including the perceptual and 
the other query parameters, the returned images indicated as relevant by the user in the 
feedback cycles and so on. Such information compose the user profiles, which can be 
used for improving the similarity computation according to each user perception. A few 
feature extractors and several distance functions are available, allowing setting up various 
perceptual parameters for different image contexts. Finally, the Interface implements the 
end user interaction, communicating with the other modules. The tool was coded in C++ 
using the cross-platform Qt framework? to provide portability. 


4. The Higiia’s Mammogram Classification Interface 


This section describes an interface developed to evaluate the effectiveness of using CB- 
MIR for supporting mammogram classification. The problem statement is as follows. 
There is an image from a mammography exam to be classified (diagnosed) according 
to the type of lesion (e.g. calcification or mass), the BI-RADS category, the breast 
parenchyma density and the subtlety of the lesion. It is desired that the specialist (a 
radiologist or a radiology resident) is allowed to search for past diagnosed images that are 
visually similar to the image to be classified for supporting the current diagnosis. The hy- 
pothesis is that providing similar classified examples the rate of correct diagnosis and/or 
the specialist sureness can be improved. 
“Le Hgts - er Ap pico or, LL a [n)-=>|eweSen 


File Edit Tools View Help 
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Database Parameters 
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Figure 2. The Mammogram Classification Interface of Higiia. 


We developed the Mammogram Classification Interface on Higiia to address the 
stated problem. Figure 2 shows a screenshot of the interface. The user must log in (step 1 
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in the figure) and select the desired database and table (step 2), specifying the search 
context. Once logged in, every user action is recorded in his/her profile. The profile 
information is devoted to further user intent characterization and statistical validation of 
the tool. Afterwards, the user loads the undiagnosed image and classify it (step 3). Usu- 
ally, the undiagnosed image is already stored in the database, as the screening equipments 
send the generated images to the hospital’s Picture Archiving and Communication Sys- 
tem (PACS), which manages the image repository. The PACS can rely on the DBMS to 
store the images directly on the database, or else they can be imported from the PACS 
server filesystem into the database by a deamon running in the PACS server. Therefore, 
the image to be classified is usually obtained from a filesystem directory or through DI- 
COM metadata-based search (these search tabs are hidden in the figure). In the figure, the 
image to be classified is shown in the left of the screen and the classification controls are 
below it. At this point, the user may want to search for similar past cases, using the undi- 
agnosed image as the query reference. To do so, he/she must define the query parameters 
(step 4), that are the number of images to be retrieved (the k value, as the system will 
perform a k-Nearest Neighbor query) and the desired perceptual parameter, and submit 
the first query (step 5). If the user omits any of these parameters, the system will use the 
default value previously defined for the search context. The Query Subsystem prepares 
the query and submits it to the DBMS using the extended SQL provided by MedFMI-SiR. 
Considering that the query image is on the database, the query is stated using a subquery 
to get the image query features, as follows: 


ES 


SELECT image FROM image_table WHERE euclidean_knn(image_sign, 
(SELECT image_sign FROM image_table WHERE id = query_image_id)) <= k; 


where image is the attribute of the image_table that stores the images; euclidean_knn 
is the extended operator that runs a kK-NN query using the Euclidean distance, whose 
parameters are the attribute of the input table that stores the extracted image features 
(the image signature image_sign), the query reference, which is the image signature re- 
turned by the subquery, and the number of images (neighbors) to be returned (k). Both 
the metadata-based queries and the content-based queries are executed over indexes. The 
indexes on the DICOM metadata tags and the MAM indexes on the signature attributes 
are created by Higiia for each query context of interest. If the query image is not on the 
database, the system extract its visual features and saves the generated signature in a tem- 
porary BLOB variable, which is provided as the query reference, in place of the subquery 
in the presented example. The query result is shown through thumbnails of the retrieved 
images in the right of the screen, in decreasing order of similarity (step 6). The user 
can visualize the diagnosis of the retrieved images by positioning the mouse over them 
(step 7). Users can also hide images judged as irrelevant right clicking on them, as during 
interviews some radiologists indicated that this action would help to reduce the visual 
noise produced by such images in the result set. If the user wants to refine the search, it 
can be done through a relevance feedback iteration. First, the user informs which are the 
relevant retrieved images, providing the perceived degree of relevance for each them in 
the combo box just below the image (step 8). Afterwards, the user chooses the relevance 
feedback method, such as the Rocchio algorithm (step 9), and presses the Feedback but- 
ton (step 10), triggering the process. Users can use as many relevance feedback cycles as 
needed to improve the acuracy and the certainty of his/her diagnosis, which must also be 
indicated by the user to be recorded as part of the classification (step 11). 
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The Higiia’s Mammogram Classification Interface is under testi in a real medical 
environment at the Clinical Hospital of the Faculty of Medicine of Ribeirao Preto of the 
University of Sao Paulo (HCFMRP-USP). An initial experiment was conducted with 10 
specialists (radiologists and radiology residents/technicians) that were asked to classify 
selected mammograms, first just analysing the image and afterwards using our interface 
to check the classification of previously diagnosed similar images. Users employed a 
perceptual parameter that maps to a 256-bin grayscale normalized histogram image sig- 
nature and to the Euclidean distance function. The sucess rate without using the system 
was high, being up to 88% in the average. However, it was verified that the interface 
helped the specialists, raising the classification success rate to more than 93%. Although 
the improvement is not so impressive, it has clinical relevance as it corresponds to difficult 
cases. Moreover, the classification confidence also increased with the aid of CBMIR. 


5. Conclusions 


This paper presented the Higiia system, which assembles several techniques developed 
during the progress of the research in similarity retrieval. Higiia is composed by modules 
that are integrated to allow filling different categories of gaps identified in CBMIR sys- 
tems. It employs feature extractors, distance functions, metric access methods, relevance 
feedback techniques and image processing functions, supporting several image formats, 
including DICOM. The paper also presented the Mammogram Classification Interface, 
which aims at assessing specialists in diagnosing mammograms and is being tested by 
radiologists in a clinical hospital, having presented interesting initial results. 
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Abstract. WED-flow (Workflow, Event, Data-flow) is a data-oriented approach, 
created to allow management and incremental modeling of business processes. 
Combining several Advanced Transaction Models, the WED-flow approach gua- 
rantees consistent execution of instances and also provides a differentiated ex- 
ception handling. In this paper we present the main aspects of WED-tool, a 
software tool which implements this approach in a concise and intuitive manner. 


Resumo. WED-flow (Workflow, Event, Data-flow) é uma abordagem orientada 
a dados, criada para permitir o gerenciamento e a modelagem incremental e 
evolutiva de processos de negocios. A combinacdo de diversos Modelos Tran- 
sacionais Avancados garante a execucdo consistente das instancias, assim como 
fundamenta seu tratamento diferenciado de excecdes. Neste trabalho, apresen- 
tamos os principais aspectos da ferramenta de software WED-tool, que imple- 
menta essa abordagem de maneira concisa e intuitiva. 


1. Introducao 


Com o crescimento e populariza¢ao da Internet, atividades que antes eram mais comu- 
mente realizadas manualmente receberam formas virtuais de execucgao gragas aos siste- 
mas web. Com a necessidade de se projeta-los, a utilizagéo de processos de negocio e 
consequentemente a utilizagao de sistemas de gestao de processos de negécio (GPN) 
cresceu rapidamente e trouxe a tona uma série de novos desafios. Como tais, podemos 
citar a dificuldade de se evoluir o modelo de um processo de negécio, a garantia de propri- 
edades transacionais a execucao de instancias, o tratamento de excegdes e a execu¢ao con- 
corrente de instancias. Varias abordagens foram propostas visando enfrentar esses desa- 
fics 
[Bhiri, S. et al. 2011], entretanto, apesar de suas contribuigdes, ainda ha muito a ser feito. 


Neste trabalho, apresentamos a WED-tool, uma ferramenta para GPN que per- 
mite a modelagem de processos de negécio de forma declarativa, a instanciagao desses 
processos e 0 controle de execu¢ao dessas instancias. A ferramenta flexibiliza 0 processo 
de modelagem e de tratamento de excecdes sem, no entanto, abrir mao da garantia de pro- 
priedades transacionais a execucéo. A WED-tool é uma implementa¢gao da abordagem 


WED-flow apresentada em [Ferreira et al. 2010] e estendida em [Ferreira et al. 2012]. 


*Este trabalho recebe 0 apoio financeiro do CNPq no programa bolsa instituicional e da FAPESP por 
meio do projeto de pesquisa n° 2010/15493-4 e 201 1/24114-0. 
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2. Abordagem WED-flow 


Um processo de negocio é um conjunto de uma ou mais tarefas estruturadas de forma 
a realizar um objetivo de negdécio especifico. O modelo de um processo de negocio, 
que é usado como base para a criagéo e gerenciamento de instancias de processos de 
negoécio, define os passos de negécio (tarefas), as precondigOes para a execuc¢ao dos passos 
e as condicoes de inicio e término de cada instancia. Cada execugao de um processo de 
negocio gera uma instancia e cada instancia executa os passos de negécio definidos no 
modelo, alterando, assim, seu estado até que a condicao de término seja alcangada. 


A abordagem WED-flow (Work, Event processing, Data-flow) foi proposta como 
uma forma de se modelar processos de negocios, de se instancia-los, de se executar suas 
instancias garantindo propriedades transacionais e de se tratar excegdes de uma maneira 
mais simples. Como nessa abordagem a modelagem dos processos se baseia na perspec- 
tiva de orienta¢ao a dados, os passos de negécio, chamados de WED-transitions, e suas 
precondig6es de execucao, chamadas WED-conditions, operam sempre sobre os estados 
de dados das instancias. Tais estados, chamados WED-states, sao valores para um con- 
junto de atributos de interesse da aplicagéo, chamados WED-attributes. Dessa forma, a 
execu¢ao de uma WED-transition em uma dada instancia de processo s6 é iniciada se 0 
estado corrente da instancia satisfaz a WED-condition associada 4 WED-transition. Essa 
ultima, quando executada, alterara o estado da instancia. 


Um WED-trigger €é um par (WED-condition, WED-transition), que associa uma 
precondicao a um passo de negocio. Um processo de negécio é modelado por meio de um 
WED-flow, que é um conjunto de WED-triggers mais duas WED-conditions que especifi- 
cam a condicao de inicio e término da execucao de uma instancia do processo em questao. 
Como uma dada aplicacgao pode ser constituida por diversos processos de negécio, pode- 
mos ter diversos WED-flows definidos sobre um mesmo conjunto de WED-attributes. 


Alteragdes nos WED-states geram eventos que s4o capturados pelas WED-triggers 
que verificam suas WED-conditions associadas e, caso elas sejam satisfeitas, disparam 
suas WED-transitions associadas, de forma similar ao modelo ECA (Event, Condition, 
Action). A execugao de uma WED-transition, a qual é modelada como um SAGA Step 
, gera um novo WED-state que por sua vez gera um novo 
evento e assim por diante, até que um WED-state gerado satisfaga a condicao de término 
do WED-flow. Caso alguma inconsisténcia seja detectada, os mecanismos de recupera¢ao 
interrompem a execu¢ao da instancia para tentar retorna-la a um estado consistente e dar 
prosseguimento a sua execugao. A definicao de inconsisténcia sera abordada na Segao[3.3] 


Durante a modelagem, o projetista define de forma declarativa as WED-transitions, 
WED-conditions, WED-triggers e WED-flows além das restrigdes de integridade da apli- 
cacao, chamadas de AWIC (Application-Wide Integrity Constraints), que sao expressas 
na forma de WED-conditions e impostas sobre os WED-states. 


3. Descricao da ferramenta 


Nesta secao descreveremos a WED-too}'| uma implementacao da abordagem WED-flow. 
Essa ferramenta foi implementada usando a linguagem open-source Ruby, que € portavel 
e também da suporte ao uso de diversos tipos de bancos de dados. Considerando suas 
funcionalidades, a ferramenta pode ser dividida em trés partes que serao descritas a seguir. 


'Mais detalhes da ferramenta est4o disponiveis em/http: //www.data.ime.usp.br/wedflow 
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3.1. Definigao e Manutencao da Estrutura dos Processos de Negocio 


As fases da modelagem de um processo de negocio utilizando a abordagem WED-flow fo- 
ram detalhadamente descritas em trabalhos prévios 
e, uma vez que o modelo foi produzido, este deve ser traduzido para uma linguagem con- 
creta de especificagao. Nesta implementacao da abordagem WED-flow, a especificagao 
do processo de negoécio deve ser descrita em um arquivo XML que segue uma estrutura 
que definimos em um XML Schema. Concretamente, WED-attributes, WED-conditions, 
WED-transitions, WED-triggers e WED-flows devem ser descritos em XML. Dessa ma- 
neira, 0 arquivo XML produzido sera interpretado pela nossa ferramenta, possibilitando a 
criagao da estrutura necessaria para controlar a execucao do processo de negécio. 


Nossa implementagao é baseada em um banco de dados relacional e cada elemento 
do modelo WED-flow esta associado a uma relacao do banco. De acordo com a defini¢ao 
dos WED-attributes, a relagao responsavel pelo armazenamento de todos os estados de 
dados é€ criada. Assim, cada WED-state é uma instancia nessa relagao. As definigdes 
de WED-conditions, WED-transitions, WED-triggers e WED-flows extraidas do arquivo 
XML também sao armazenadas no banco. Para cada WED-transition definida em um 
XML fornecido como entrada para a ferramenta, a WED-tool cria um prot6tipo de duas 
classes em Ruby: uma para o cédigo que sera executado pela ferramenta no disparo da 
transi¢ao, e outra para 0 cédigo da compensacao associada a transi¢ao. O projetista do 
WED-flow é quem deve definir esses cddigos, respeitando uma interface bem definida. 
Com isso, uma transi¢ao pode ser qualquer cddigo que possa ser especificado em Ruby, o 
que inclui chamadas a componentes ou servi¢os Web, ou até mesmo instrugdes SQL. 


E importante notar que nosso sistema é capaz de controlar diferentes WED-flows 
para uma mesma aplicacgao. Enquanto WED-triggers sao especificos e diretamente asso- 
ciados a um WED-flow, as definigdes de WED-conditions e WED-transitions sao gerais, 
facilitando o reuso das mesmas por diversos WED-flows. Além disso, 0 modelo de um 
WED-flow pode ser alterado incrementalmente por meio da adicao ou remocgao de WED- 
conditions, WED-transitions e WED-triggers, simplificando sua evolucao. 


3.2. Controle de execucao 


Apéos a leitura da especificagao do modelo e cria¢ao da estrutura inicial, 0 sistema permite 
criar instancias de WED-flows e controlar a execugao das mesmas. Nesta implementacao, 
para dar inicio a execucao de uma instancia do processo de negécio, um usuario precisa 
fornecer valores iniciais para criar um WED-state e também selecionar um WED-flow 
que sera instanciado para manipular o novo estado inicial gerado. 


Na abordagem WED-flow, 0 controle de execucao dos processos de negécio é 
determinado por WED-conditions que sao verificadas sobre os valores dos atributos dos 
WED-states. Assim, todos os WED-states devem ser monitorados e quando um deles 
satisfaz uma condicao, a transi¢ao associada sera disparada assincronamente. Para reali- 
zar 0 monitoramento de estados, a WED-tool cria, para cada WED-trigger definido pelo 
usuario, uma estrutura que mantém uma fila de WED-states que precisam ser processa- 
dos e também um intervalo de tempo que indica com que frequéncia o processamento 
deve ocorrer. Dessa maneira, cada WED-trigger é responsavel por verificar sua propria 
condicao e disparar sua transi¢ao se necessaério. Sendo assim, apos a instanciagao do 
WED-flow, a execucao é iniciada por meio do oferecimento do WED-state inicial para 
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todos os WED-triggers associados ao WED-flow selecionado, ativando a avaliagao de 
WED-conditions que irao habilitar o disparo de WED-transitions. 


Cada execugao de WED-transition produz um novo WED-state que, por sua vez, 
pode disparar a execucao de outra(s) WED-transitions do WED-flow, dando prossegui- 
mento a execucao da instancia. O novo WED-state é gerado pela transicaéo por meio da 
atualizagao de um conjunto especifico de atributos que deve ser definido no cédigo de exe- 
cu¢ao da WED-transition. Esse conjunto também determina para quais WED-triggers o 
novo estado da instancia sera oferecido. O novo estado deve ser oferecido para um WED- 
trigger se, e somente se, a WED-condition associada possui pelo menos um predicado 
definido sobre um atributo que foi atualizado na producao do novo estado. O ofereci- 
mento seletivo foi desenvolvido para evitar 0 redisparo nao-intencional de transi¢6es. 


Em nossa implementagao, além de armazenar todos os estados de dados gerados 
na instancia, mantemos um historico de todas as execugdes de WED-transitions, incluindo 
detalhes como o estado responsavel pelo disparo, estado produzido e data de inicio e tér- 
mino da execucao. Essas informacoes sao fundamentais para o mdédulo de recupera¢gao 
agir na ocorréncia de exce¢ées e interrupcdes. Adicionalmente, outras informagoes refe- 
rentes ao controle de execucao (como por exemplo, as filas dos WED-triggers) sao tam- 
bém mantidas em banco de dados para fins de integridade. Dessa maneira, garantimos 
que, em caso de queda do sistema, as execugées das instancias poderao ser retomadas. 


3.3. Recuperacao 


Uma instancia do WED-flow esta inconsistente quando um WED-state inconsistente é 
produzido ou quando ha alguma falha durante a execugao de uma WED-transition. Con- 
sideramos inconsistente o WED-state que (i) nao respeita as restrigOes AWIC definidas no 
modelo, (ii) nao satisfaz nenhum WED-trigger e (1i1) em sua instancia nao ha mais WED- 
transitions sendo executadas. WED-states inconsistentes sao, normalmente, consequéncia 
de falhas de projeto ou de problemas estruturais, como 0 corrompimento do disco rigido, 
por exemplo. Uma WED-transition pode falhar devido a problemas de implementagao, 
time-out da execug¢ao, conflitos de escrita causados por WED-transitions sendo executadas 
paralelamente, cancelamento explicito da execugao e devido a problemas estruturais que 
resultam na interrup¢ao inesperada da execu¢ao, como no caso de uma queda de energia, 
um defeito em componente do servidor, etc. A detec¢ao da inconsisténcia de uma instan- 
cia do WED-flow, independentemente da causa, resulta na ativagao do gerenciador de 
recuperacao da WED-tool, o qual imediatamente a interrompe. 


O objetivo do gerenciador de recuperagao é fazer com que a instancia interrompida 
volte a ser consistente. Para isso, por meio do histérico de execugdes mantido pela WED- 
tool, a situagao de interrupcao é externalizada e a intervencao de um administrador do 
sistema se faz necessdria. E ele, que através de um arquivo XML em formato semelhante 
ao usado para a definigao de processos de negécios, fara a escolha do(s) método(s) de re- 
cuperacao a ser(em) utilizados. Pode-se dividir os métodos de recuperagao em dois tipos: 
(i) com WED-state consistente e (11) com WED-state inconsistente. O primeiro tem como 
caracteristica métodos que sempre partem de um WED-state consistente. Ele compreende 
compensacoes, chamadas de WED-compensations, que desfazem semanticamente uma 
WED-transition e as ressubmissdes que ressubmetem um determinado WED-state aos 
WED-triggers do WED-flow no escopo da instancia paralisada. O segundo compreende 
transicOes especiais, definidas pelo administrador do sistema, que, a partir de um WED- 
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state inconsistente, geram um WED-state consistente. E importante salientar que pode 
haver combinacées dos métodos, como, por exemplo, WED-compensations associadas a 
ressubmiss6es, etc. Definidos o(s) método(s) de recuperagdo e seus possiveis parame- 
tros de execucao, o gerenciador de recuperagao se encarrega de executa-lo(s). Outra vez 
consistente, a instancia do WED-flow pode dar prosseguimento a sua execucao. 


A interven¢ao de um administrador do sistema, prevista no WED-flow é justifi- 
cada por dois motivos principais: a caracteristica semantica do tratamento de excecdo e a 
necessidade de se diminuir a complexidade da modelagem inicial dos processos de neg6- 
cio. E muito comum que um mesmo problema tenha diversas solugdes e que a qualidade 
ou eficacia de cada solucao varie conforme o contexto em que o problema esta inserido. 
No momento da modelagem inicial de um processo de negécio é geralmente complicado, 
ou até mesmo impossivel, modelar todos os problemas, seus possiveis contextos e suas 
miultiplas formas de tratamento. Com a intervencgaéo de um administrador do sistema, 
o melhor método de recuperacao é definido e entaéo executado somente quando ele se 
faz necessario. Similarmente, é permitido ao administrador do sistema adicionar, mo- 
dificar ou remover WED-transitions, WED-conditions, WED-triggers e restrigdes AWIC 
também no momento da recuperacgao. Isso afetara todas as instancias dos WED-flows 
relacionados e assim, com essa possibilidade de se adicionar novas regras de negécio e 
de se modificar as ja existentes, diminui-se a complexidade da modelagem inicial e ao 
mesmo tempo permite-se um tratamento de excegdes muito mais preciso. 


4. Exemplo 


Para ilustrar como nossa implementagao funciona, utilizaremos um exemplo de uma agén- 
cia de viagens, também apresentado em [Ferreira et al. 2012]. Nessa agéncia, quando um 
pedido de viagem é feito, o primeiro passo é valida-lo. Apos a validacao, a reserva de 
hotel e a compra de passagem aérea podem ser realizadas paralelamente. Se ambas fo- 
rem executadas com sucesso, 0 pedido é concluido. A especificagao desse processo de 
neg6cio, usada como entrada para a WED-tool, é descrita em um arquivo XML/ 


Criamos duas instancias do processo da agéncia de turismo. Na primeira (Figura 
[Ifa]), com estado inicial 1.1, inicialmente 0 pedido é validado (WED-transition;), ge- 
rando o estado 1.2, e entao as transicdes de reserva de hotel (WED-transition:) e compra 
de passagem de aviao (WED-transition;) sao habilitadas pelo estado 1.2 e disparadas pa- 
ralelamente. A reserva é realizada (estado 1.3) e a passagem comprada (estado 1.4). O 
estado 1.4 habilita a execugao da WED-transition,, que finaliza o pedido. Para essa ins- 
tancia, as execucdes dos passos do processo de negécio sao realizadas com sucesso e, 
consequentemente, o cliente recebe uma reserva de hotel e uma passagem de aviao. 


Ja na execucao da segunda instancia (Figura [Ifb]), inicialmente o pedido é vali- 
dado e entao as transig6es de reserva de hotel e compra de passagem de aviao sao dispa- 
radas. A primeira é realizada com sucesso, porém ocorre um problema com a segunda e 
esta € interrompida por time-out. Com isso, supondo que o cliente desistiu da viagem, os 
passos que haviam sido realizados com sucesso precisam ser compensados, retornando a 
instancia para um estado equivalente ao inicial. Na Figura[l[b], a WED-transitions; esta re- 
presentada em cor cinza, indicando que a transi¢ao foi disparada mas nao concluida. Além 
disso, os dois ultimos estados (2.4 e 2.5) sao frutos da execugao de WED-compensations, 
associadas as WED-transitions que ja haviam sido executadas na instancia. 


20 XML do exemplo esta disponivel em|http: //www.data.ime.usp.br/wedflow. 
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Estado| Cliente Pedido Hotel Hotel id Passagem  |Passagem id 
1.1. |Na&o validado| Recebido | Nao requisitado Nao requisitado > WED-Transition 
1.2 Validado Validado Requisitado Requisitado ' 
WED-Ti iti 
1.3 Validado | Validado Reservado 1 Requisitado a Mit: 
- Transition. 
1.4 Validado Validado Reservado 11 Comprado 22 ~ 7 
1.5 | Validado | Finalizado | Reservad rr Comprad ae gee nt 
(a) : alidado inalizado eservado omprado 
Estado Cliente Pedido Hotel Hotel id Passagem__ |Passagem id 
2.1 |Nao validado; Recebido | Nao requisitado Nao requisitado Po, WED-Transition 
2.2 Validado Validado Requisitado Requisitado ; . 
: - _ ~) WED-Transition, 
2.3 Validado Validado Reservado 30 Requisitado 
24 Validado Validado Requisitado Requisitado “ WED-Compensation, 
(b) 2.5 N&ovalidado Recebido NAo requisitado Nao requisitado Pe. WED-Compensation, 


Figura 1. (a) Execucao da instancia 1. (b) Execucao da instancia 2. 


5. Consideracoes Finais 
Embora muitos trabalhos tedéricos recentes apresentem propostas de modelos transaci- 


onais para processos de negécio [Schuldt et al. 2002], [Vidyasankar and Vossen 2011], 
([Bhiri, S. et al. 2011], poucos desses modelos foram implementados, 0 que, em alguns 
casos, pode indicar uma inviabilidade pratica. Este artigo apresenta a ferramenta WED- 
tool que, utilizando os conceitos da abordagem WED-flow, garante uma modelagem evo- 
lutiva, o controle transacional e a diminuicao da complexidade do tratamento de excec6des 
em processos de negécio. Na WED-tool, é facil alterar o modelo de um processo de 
negocio em qualquer fase do seu ciclo de vida. Os passos de negécio (encapsulados 
como WED-transitions) sao implementados como SAGA Steps, o que garante proprie- 
dades transacionais aos processos. O tratamento de excegdes é ad hoc, permitindo aos 
projetistas que se concentrem na definicao das regras de negécio da aplicagao e dimi- 
nuindo a incidéncia de erros, uma vez que, no momento da modelagem, nem sempre eles 
tém clareza de todos os caminhos de execuc¢ao possiveis. 
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Abstract. The climate changes of last ages shows that the analysis of climate 
data is a fundamental task, because these changes impact both social and eco- 
nomical. In this context, this work presents a tool that allows to perform several 
types of analysis considering the behavior variation of climate data. Also, this 
tool can use climate model data in a dynamic environment based on workflows. 
In this way, our tool helps the specialist to make decisions. 


Resumo. As mudancas do comportamento do clima das ultimas décadas de- 
monstram que a andlise de dados climatolégicos é de fundamental importancia 
devido ao impacto social e econémico que implicam. Nesse contexto, esse 
trabalho apresenta uma ferramenta que permite realizar diversos tipos de 
andlises considerando a variacdo do comportamento desses dados assim como 
a utilizacdo de dados provenientes de modelos climdticos, em um ambiente 
dindmico baseado em workflows, de modo a auxiliar o especialista do dominio 
em sua tarefa de tomada de decisdo. 


1. Introducao 


O aumento da frequéncia de eventos meteorologicos extremos, juntamente com 0 au- 
mento da temperatura e a mudanga na distribuicao de chuvas, indicam mudangas signi- 
ficativas no clima global. Nesse cenario, pesquisas que envolvam o clima e a anialise 
de dados meteorolégicos sao de fundamental importancia devido ao impacto social e 
econdmico que essas mudangas implicam. Inicialmente, as pesquisas climatol6gicas vi- 
savam entender os efeitos do clima sobre 0 comportamento da sociedade, por exemplo, 
seus habitos, distribuicao geografica e atividades como agricultura. Com o crescimento 
da populagao, as pesquisas intensificaram-se [Ayoade 1996] e atualmente, grandes con- 
juntos de dados meteorolégicos provenientes de diferentes fontes, como estagdes meteo- 
rologicas, satélites, modelos climaticos, dentre outros, sao analisados pelos especialistas 
a fim de entender eventos extremos e anomalias climaticas. 


*Os autores agradecem o apoio financeiro das seguintes agéncias de fomento a pesquisa do Brasil: 
CNPgq, Instituto Microsoft Research - Fapesp, RUSP. 
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Atualmente, o avanco da tecnologia utilizada na obtengao de dados meteo- 
rologicos resultou em um crescimento desses conjuntos de dados, dificultando assim, sua 
andlise manual ou semiautomatica. Desse modo, ferramentas computacionais tornaram- 
se necessarias para auxiliar os meteorologistas a analisar o clima presente e estimar o 
comportamento no futuro. No entanto, de acordo com os especialistas do dominio, ha 
uma caréncia de ferramentas que integrem tarefas diversas do processo de analise, como 
selecado de dados, visualizacgao, andlise de comportamento (principalmente considerando 
miultiplas variaveis climaticas), mineragao de dados, analise de similaridade, entre ou- 
tras. Neste cendrio, visando suprir essa caréncia de ferramentas de andlise de dados 
meteoroldgicos, algumas delas vém sendo propostas e desenvolvidas como é 0 caso do 
sistema SatImage Explorer[Chino et al. 2011], cuja finalidade é auxiliar a andlise de ima- 
gens de satélites, utilizando técnicas de detec¢d4o de agrupamentos sobre séries temporais 
extraidas de imagens de satélites. 


Nesse contexto, este trabalho propde um ambiente dinamico baseado em work- 
flows para a andlise de miltiplas séries temporais climaticas, denominado ClimFractal 
Analyser. Essa ferramenta utiliza técnicas da teoria dos fractais e medidas estatisticas 
basicas como média e desvio padrao, permitindo que o especialista determine dinamica- 
mente, através da parametrizacao de um workflow, diversos cenarios de andlise de séries 
temporais climaticas sem a necessidade de prender-se a um Unico tipo de andlise. 


2. Técnicas e Trabalhos Correlatos 


A manipulagao de miultiplas séries temporais como data streams multidimensionais per- 
mite que técnicas utilizadas para mineracao de data streams sejam utilizadas em séries 
temporais. Uma data stream pode ser definida como uma sequéncia continua de itens de 
dados ou eventos, ordenadas e potencialmente infinita e, em geral, o foco de andlise esta 
em um intervalo de eventos e nao na stream inteira. Desse modo, o modelo baseado em 
janelas permite limitar o escopo da sequéncia de eventos a serem tratados. 


Neste trabalho, sao utilizadas técnicas baseadas na teoria dos fractais para reali- 
zar a analise do comportamento de data streams multidimensionais. Um fractal é defi- 
nido pela propriedade de auto-similaridade, isto é, objetos fractais apresentam as mesmas 
caracteristicas em diferentes variagdes de escala e tamanho. Desse modo, partes de um 
fractal sdo similares, exata ou estatisticamente, ao fractal como um todo[Schroeder 1991]. 


Na teoria dos fractais, existem conceitos relevantes para a tarefa de mineracao 
de dados, dentre eles, pode-se citar a dimensao fractal, que prové uma estimativa da di- 
mensionalidade intrinseca de um conjuntos de dados. A dimensao intrinseca fornece 
a dimensionalidade do objeto representado pelos dados, independente da dimensao do 
espaco em que esta inserido. A dimensao fractal é uma estimativa do comportamento 
nao-uniforme do conjunto de dados e indica a existéncia ou nao de correlagdes entre 
os atributos dos eventos que compdem o conjunto de dados [Faloutsos and Kamel 1994, 
Traina Jr. et al. 2005]. 


A dimensao fractal de objetos estatisticamente auto-similares, como é 0 caso de 
grande parte dos conjuntos de dados reais, pode ser determinada pela Dimensao Fractal 
de Correlagéo D2, podendo ser utilizada para estimar a dimensao intrinseca de conjun- 
tos de dados reais com um custo computacional vidvel. A andlise baseada na dimensao 
intrinseca pode ser estendida de modo a detectar mudangas de comportamento em data 
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streams evolutivas. Essa analise é realizada por meio da medi¢ao continua da dimensao 
fractal de uma data stream ao longo do tempo. Assim, variag6es significativas nas me- 
didas sucessivas de D2 podem indicar mudangas nas caracteristicas intrinsecas dos da- 
dos. Um algoritmo eficiente para realizar a andlise continuada da dimensao fractal de 
um conjunto de dados é o S/D-meter, apresentado em [Sousa et al. 2007]. Trata-se de 
um algoritmo baseado em janelas deslizantes definidas sobre 0 conjunto de dados, permi- 
tindo assim delimitar 0 escopo de analise da data streams de modo a realizar 0 calculo 
continuado da dimensa@o fractal. 


Outro aspecto fundamental em Meteorologia é a previsao do tempo e do clima. 
Nesse contexto, diversos modelos climaticos foram criados visando suprir essa demanda. 
Um dos modelos que vém sendo muito utilizado no Brasil é o ETA, instalado no Cen- 
tro de Previsio de Tempo e Estudos Climaticos (CPTEC) em 1996[Chou 1996]. Este 
modelo é utilizado para analisar a variabilidade em varias escalas, desde mudangas nas 
médias anuais até ciclos diarios. Nesse contexto, mecanismos que permitam analisar a 
conformidade entre os resultados gerados pelo modelo climatico com séries temporais 
climatolégicas reais sao fundamentais para ajustar e melhorar os modelos climaticos as- 
sim como para validar os resultados obtidos por meio da andlise dos resultados dos mode- 
los. O método proposto em [Willmott et al. 1985] fornece um indice d, que reflete o grau 
de concordancia entre as séries reais e de dados gerados por modelos climaticos. Esse 
indice avalia a exatidao e a divergéncia dos valores simulados em relacdo aos valores re- 
ais, variando de 0 (total discordancia) a 1 (total concordancia). Utilizando esse indice 
é possivel inferir o quao efetivo é a utilizagdo de séries temporais geradas por modelos 
climaticos em uma anidlise especifica, além de permitir verificar qual modelo climatico é 
o mais adequado a um determinado conjunto de dados reais. 


3. A ferramenta ClimFractal Analyser 


A ferramenta ClimFractal Analyser, desenvolvida com o objetivo de integrar diversos ti- 
pos de andlise sobre dados meteoroldgicos, permite que 0 usuario configure o fluxo da 
analise por meio da parametrizacdo de um workflow. A principio, a ferramenta permi- 
tia que um Unico tipo de analise fosse realizado. Porém, com o decorrer do projeto, a 
necessidade de outros tipos de andlises surgiram, de modo que um ambiente dinaémico 
de analise tornou-se um requisito para 0 aprimoramento da ferramenta. Nesse contexto, 
tendo em vista a linguagem utilizada no desenvolvimento da ferramenta (C++) e a com- 
plexidade das andlises que seriam realizadas, um novo ambiente baseado em workflows 
foi desenvolvido. Permitindo uma maior gama de andlises sem se prender a nenhum fluxo 
de andlise especifico. 


Ambientes baseados em workflows descrevem uma série de construgoes individu- 
ais que sao incorporadas em um cenario com recursos ja existentes, essas constru¢gdes sao 
decorréncias de necessidades de uma modelagem real. Além disso, é possivel que no- 
vas funcionalidades sejam incorporadas sem obrigar uma abordagem de implementacao 
especifica[Russell et al. 2006], facilitando assim, a tarefa de andlise do especialista do 
dominio. Nesse contexto, diversas funcionalidades foram implementadas em componen- 
tes individuais na ferramenta ClimFractal Analyser e sao descritas com maiores detalhes 
nas subsecOes seguintes. 


A interface principal da ferramenta é apresentada na Figura 1, onde é possivel vi- 
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sualizar como as funcionalidades individuais sao combinadas de modo a realizar uma 
andlise especifica. Essa analise é definida em um workflow, construido por meio de 
uma interface onde o usuario arrasta os componentes desejados para o ambiente de 
parametriza¢ao, localizado do lado direito da interface. Esses componentes interagem 
por meio da defini¢ao dos fluxos de dados representados por setas entre os componentes. 


3.1. Fonte de Dados 


Este sistema foi desenvolvido visando manipular diversas fontes de dados. Desse modo, 
as fontes de dados utilizadas sao parametrizaveis de duas maneiras: utilizando conex6es 
com banco de dados, de modo que seja possivel utilizar diversos bancos de dados si- 
multaneamente e também por meio da utilizagao de arquivos no formato CSV (comma- 
separated values) contendo séries climaticas quaisquer. 


Um ponto relevante em sistemas de previsdo climatica é que as medigoes de da- 
dos meteoroldgicos dependem de dispositivos analdgicos, como sensores de tempera- 
tura, umidade e radiacao solar, para prover a informacao fisica a respeito das condi¢6es 
climaticas em dado momento. Esses dispositivos nao sao totalmente confiaveis, resul- 
tando esporadicamente na producao de medidas erréneas. Nesse contexto, por meio da 
utilizagéo do método proposto em [Romani et al. 2003], o sistema permite realizar uma 
estimativa de dados faltantes, por meio da utilizagao de dados provenientes de estacdes 
prd6ximas aquela que apresenta medigoées err6neas. 


3.2. Filtros 


Sobre as fontes de dados parametrizadas no workflow é possivel aplicar filtros, permitindo 
que o especialista do dominio selecione regides de interesse assim como intervalos de 
tempos de interesse. 


3.3. Ferramentas de Andalises Basicas 


Sobre os conjuntos de dados parametrizados no workflow, 0 sistema possibilita que sejam 
realizados diversos tipos de analises explicadas com maiores detalhes a seguir: 


e Andalise do comportamento intrinseco do conjunto de dados: Por meio da 
implementagao do algoritmo S/D-meter em um componente, 0 sistema permite 
realizar multiplas analises simultaneamente para diversas abordagens. 

e Calculo da média e do desvio padraéo: A andlise do comportamento 
intrinseco pode destacar 0 acontecimento de eventos extremos no conjunto de 
dados[Nunes et al. 2011]. Desse modo, a variagaéo da média e do desvio padrao 
das varidveis que comp6e o conjunto de dados pode indicar quais varidveis sao 
responsaveis pelas mudangas de comportamento do conjunto de dados. 

e Analise da conformidade entre séries temporais: Por meio da utilizagao do indice 
d de Willmott, é possivel realizar uma andlise sobre o grau de conformidade en- 
tre os conjuntos de dados reais e 0 conjunto de dados provenientes de modelos 
climaticos. 


3.4. Visualizacao dos resultados 


Os resultados obtidos na analise dos conjuntos de dados podem ser exibidos utilizando 
graficos de linhas que permitem visualizar os resultados do calculo da variagao do com- 
portamento do conjunto de dados realizados pelo S/D-meter, assim como o calculo da 
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variacao indice d de Willmott e também a varia¢gao da média e desvio padrao de variaveis 
individuais. 

Também é possivel visualizar a localizagao geografica do conjunto de dados. Esse 
tipo de safda permite que usuario selecione o tipo de API que sera utilizada na exibi¢ao 
(GoogleMaps! ou Bing”) além de exibir informac6es individuais de cada estago meteo- 
rologica utilizada na andlise. 


4. Experimentos 


Utilizando a ferramenta ClimFractal Analyser, o fluxo apresentado na Figura | foi cons- 
truido. Nesse experimento, utilizou-se dados provenientes de uma estacgao meteoroldégica 
no estado de Sao Paulo, utilizando as varidveis climatolé6gicas de temperatura média e 
precipitacao no intervalo de 1961 a 1990. Utilizando a latitude e longitude da estagaéo me- 
teoroldgica, realizou-se uma busca pelos dados provenientes do modelo climatico ETA 
para o mesmo ponto. Sobre esse conjunto de dados, realizou-se o calculo continuado da 
dimensao fractal assim como o calculo continuado do indice d de Willmott. 


actal Analyser 


Data Source 
Filter 
Basic Analysis Tools 


Output 


> 4 


Miscellaneous 


Figura 1. Interface da ferramenta ClimFractal Analyser com a definigao de um 
fluxograma para analise de uma estacao meteorolodgica. 


Como resultado, tem-se a variagdo da dimens§o fractal, apresentado na Figura 
2(a), assim como a variacgao do indice d de Willmott, apresentado na Figura 2(b). Além 
disso, é possivel visualizar a posi¢ao geografica da estagao meteorolégica, como apresen- 
tado na Figura 2(c). 


5. Conclusao 


A ferramenta ClimFractal Analyser permite que diferentes tipos de analises sejam reali- 
zadas sobre diversos conjuntos de dados, em um ambiente dinamico baseado em work- 
flows, auxiliando o especialista do dominio em sua tarefa de descoberta de conhecimento. 
Devido a sua arquitetura baseada em moddulos individuais, é possivel estender essa ferra- 
menta adicionando novas funcionalidades de forma simples. 


"http://code.google.com/intl/pt-BR/apis/maps/index.html 
*http://www.bing.com/maps/ 
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cavel Para, ross: ie 
T T T T T T T T T T T iS a Te ae Ries ‘Map Data - Terms of Use 
1,965 1,970 1,975 1,980 1,985 1,990 1965 1,970 1,975 1,980 1,985 
(a) Variagao de Do. (b) Variagaéo do indice d de Will- (c) Localizagao geografica da 
mott. estacdo meteorolégica. 


Figura 2. Analises realizadas pelo ClimFractal Analyser. 


Como apresentado na se¢ao anterior, é possivel realizar experimentos complexos 
de forma dinamica sem se prender a uma andlise especifica, empregando simultaneamente 
diversos algoritmos de modo a melhorar a compreensao do comportamento do conjunto 
de dados. 
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Abstract. This work presents MyGFT, a storage engine for integrating MySQL 
DBMS and Google Fusion Tables, a cloud-based data management service. 
The module is described in terms of architecture, its integration to MySQL and 
how its use can be a viable alternative to data retrieval for controlled and 
structured vocabularies used in healthcare applications. 


Resumo. Este trabalho apresenta o MyGFT', um storage engine para a inte- 
gracgdo do SGBD MySQL ao servigo de gerenciamento de dados em nuvem 
Google Fusion Tables. O médulo é descrito em termos de arquitetura, inte- 
gracgdo ao MySQL e de como sua utilizagao pode se tornar uma alternativa 
vidvel a recuperacao de dados pertencentes a vocabularios controlados e es- 
truturados utilizados em aplicagées na area da saude. 


1. Introducao 


A extensao SQL/MED (Management of External Data), definida em meados de 2000, 
passou a integrar o padrao SQL com o objetivo de estabelecer uma metodologia de 
acesso a fontes de dados externas as instancias relacionais. Pela sua utilizagao, é possi- 
vel complementar os dados normalizados disponiveis em instancias de bancos de dados 
relacionais com dados provenientes de origens diversas. Esse acesso a fontes de dados 
heterogéneas prové uma interface unificada (baseada na linguagem SQL) que permite o 
estabelecimento de relac6es diretas entre os conjuntos disponiveis [Melton 2002]. 


A gravacao de dados externos em arquivos ou mesmo em bancos de dados com 
arquiteturas diversas é uma pratica conhecida. Como estratégia alternativa, servicos ori- 
entados a dados em nuvem (DaaS — Data as a Service) tém se apresentado como uma 
op¢ao viavel ao armazenamento convencional [Zhou 2010], [Dikaiakos 2009]. Além de 
tornarem 0 acesso aos dados ubiquo, esses servigos podem auxiliar na redugao da re- 
dundancia de dados entre diferentes sistemas de informacao. Neste cenario, consideram- 
se diferentes sistemas clientes acessando os mesmos servigos em nuvem via APIs ofere- 
cidas pelos proprios servicos. 


' Este trabalho é parcialmente financiado pela Fundagdo Araucaria projeto 22.741 e CNPq processo 
484366/2011-4. 
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Visando prover acesso uniforme a dados armazenados localmente e em nuvem, 
este trabalho apresenta o MyGFT — um storage engine que objetiva a utilizagao do ser- 
vico de gerenciamento de dados em nuvem Google Fusion Tables (GFT) através do 
SGBD MySQL. O storage engine é desenvolvido como uma extenséo modular do 
MySQL e segue a modalidade pass-through do padrao SQL/MED. Os dados armazena- 
dos no GFT sao compartilhados por diversas aplicagdes e acessados da mesma forma 
que os dados armazenados localmente. Assim, para sistemas baseados em MySQL, o 
uso do MyGFT torna 0 acesso ao GFT transparente a aplicacdo. Em outras palavras, ¢ 
possivel escrever consultas SQL que envolvam tanto tabelas locais quanto tabelas no 
GFT, ficando a cargo do MyGFT 0 acesso a tabelas remotas. Esse acesso envolve a 
construg¢ao de uma requisi¢ao HTTP, 0 envio dessa requisi¢ao ao GFT e a recep- 
¢ao/tratamento (parsing) da resposta. Sem 0 MyGFT essas tarefas teriam de ser realiza- 
das pela aplicacao, bem como o processamento de jungdes com os dados armazenados 
localmente. 


O trabalho é organizado como segue. Na secao dois sao apresentados detalhes 
técnicos sobre o GFT; a secao trés descreve 0 processo de desenvolvimento do MyGFT, 
partindo da sua integracao com a arquitetura modular do MySQL até o processo de utili- 
zacao durante a criacao de tabelas; a segao quatro apresenta e discute um possivel cena- 
rio de uso para o mddulo desenvolvido; a secao cinco relaciona trabalhos correlatos, e a 
secao seis conclui o trabalho com as primeiras impress6es sobre a utilizagao do mddulo 
e com possiveis trabalhos futuros. 


2. Google Fusion Tables 


Disponibilizado em junho de 2009, 0 Google Fusion Tables (GFT) € um servico de ge- 
renciamento de dados em nuvem que objetiva facilitar o compartilhamento de conjuntos 
de dados e a execug¢ao de atividades colaborativas sobre esses conjuntos em uma arqui- 
tetura web [Gonzalez 2010a]. O servico possibilita a criagao de tabelas de dados pela 
execugao de comandos em uma interface web ou pela importacao de arquivos nos for- 
matos CSV (Comma Separated Values), KML (Keyhole Markup Language) ou plani- 
lhas, limitados a um tamanho maximo de 100MB. Uma vez criadas, essas tabelas de 
dados podem ser definidas como publicas, privadas ou compartilhadas entre usuarios 
chamados colaboradores; além disso, seu contetdo pode ser relacionado ao contetido de 
outras tabelas via equijuncgdes, sendo possivel também a construcdo de visdes para a 
integracao de diferentes tabelas visando um acesso unificado. 


Estruturalmente, o GFT é organizado sobre uma pilha de servigos de armazena- 
mento, com destaque para a estrutura utilizada na persisténcia de pares chave/valor e 
para a biblioteca de primitivas utilizada na criagao de indices secundarios, gerencia- 
mento de transagées e replicagao [Gonzalez 2010b]. O armazenamento efetivo dos da- 
dos do GFT é feito em estruturas do tipo Bigtable, implementadas como mapas multi- 
dimensionais ordenados altamente escalaveis. Essas estruturas sao utilizadas também 
para o armazenamento dos esquemas das tabelas, indices, /Jogs de transacdo e comenta- 
rios feitos pelos usuarios com acesso as tabelas. A biblioteca Megastore, por sua vez, € 
responsavel pela indexacgao secundaria dos atributos das tabelas, pela implementacao e 
gerenciamento de transag¢des ACID e pela replicagao de dados, esquemas, indices, /ogs e 
comentarios em diferentes servidores. 
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A API’ do GFT é organizada de forma a permitir que diferentes aplicagées clien- 
tes possam usufruir do servico de armazenamento, utilizando-se de um conjunto bem 
definido de operagées DDL (criacao e exclusao de tabelas) e DML (selecao, proje¢ao, 
agrupamento e agregacao, insergao, atualizagao e exclusdao de dados). As operagdes a 
serem executadas sao enviadas pelas aplicacdes clientes via HTTP/RPC para o GFT, 
onde sao interceptadas e avaliadas pelo médulo despachante. Esse médulo converte a 
requisicao recebida para uma representac¢ao interna do servi¢o (consulta), e a encaminha 
para o modulo de otimiza¢ao, responsavel pela geracao do respectivo plano de execu- 
cao. Esse plano de execu¢ao é enviado ao processador de consulta, modulo responsavel 
pela execucao do plano, pelo recebimento dos resultados e pelo encaminhamento desses 
resultados aos mdédulos de nivel superior. 


3. O storage engine MyGFT 


O SGBD MySQL € caracterizado por uma arquitetura modular, extensivel pelo desen- 
volvimento de plugins responsaveis por encapsular funcionalidades como busca textual 
e autenticacgao [Golubchik e Hutchings 2010]. Especificamente com relagao ao armaze- 
namento de dados, é possivel definir e implementar diferentes formatos e suas respecti- 
vas formas de acesso pelo atendimento as especificacdes da Storage Engine API’. O 
storage engine MyGFT 6 construido de acordo com os preceitos dessa API, permitindo 
sua integracao a arquitetura do MySQL conforme exibido na figura 1. 


Aplicacao cliente oogle Fusion Tables: 


t Despachante 
Conectores 
(ODBC, JDBC, API nativa em linguagem C, ...) Resultado 
ft Otimizador 


Servidor MySQL 


Gerenciamento de conexdes 


(parsing, geracgao do plano) 
Plano de 2 
Processador de consulta 
(execugao do plano) 


Sl 

i Bigtable — J 
i Bigtable 

FEE 

| Bigtable 


(autenticagao, limite de conex6es, caching, ...) 


0} 


Acesso a dados 
(interface SQL, parser, otimizador, caching, ...) 


t 


‘Storage engines modulares 


Persisténcia 


Requisigao HTTP 


(pass-through da instrugao SQL) 
Resposta 
(dados em formato CSV) 


(acesso a sistemas de arquivos, gravacgao/recuperacgao de dados, ...) 


Figura 1. O storage engine MyGFT - integracao a arquitetura MySQL e acesso 
ao GFT (adaptac¢ao). 


Visando atender ao cenario de uso descrito na segao quatro, o MyGFT foi proje- 
tado como um storage engine somente de leitura; essa restrigao de funcionalidade é pos- 
sivel gracas a organizacao da Storage Engine API, que mapeia instrugdes DDL e DML 
para fungdes em linguagem C++ nas quais as acgdes sao efetivamente implementadas. 


* https://developers. google.com/fusiontables/ 
> http://dev.mysql.com/doc/refman/5.6/en/pluggable-storage-overview.html 
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Como exemplo, uma instrugaéo SELECT € mapeada para um conjunto de funcgdes 
(open(), rnd_init(), rnd_next(), rnd_end(), close()) invocadas pelo 
servidor na ordem definida pela API. 


Com o modulo devidamente instalado, é possivel criar tabelas e usa-las para 
recuperar dados armazenados no GFT. A criacgao dessas tabelas requer a especifica¢gao 
de um padrao de codificagao de caracteres para os dados recuperados, bem como a es- 
pecificagao do identificador unico da tabela no GFT: 


mysql> install plugin MYGFT soname 'ha mygft.so'; 


mysql> CREATE TABLE cidl10(codigo subcategoria text, 
nome subcategoria text) DEFAULT CHARSET=utf8 
CONNECTION='4371448' engine=mygft; 


No exemplo, 0 default charset para os dados recuperados é definido como UTF- 
8 (padrao do GFT), e o identificador Unico da tabela (4371448) corresponde ao identifi- 
cador atribuido pelo GFT no momento da criagao da tabela original. Além disso, a rela- 
cao de campos deve ser equivalente a relagao de colunas da tabela original. 


Instrugdes de selegao (SELECTs) repassadas pelo servidor MySQL ao modulo 
MyGFT nao sao interpretadas pelo médulo. Gracgas 4 API SQL do GFT, é possivel en- 
caminhar essas instrugdes na forma de requisig¢des HTTP diretamente ao servico, pro- 
vendo assim uma implementacao para a modalidade pass-through prevista no padrao 
SQL/MED. A construgao das requisig¢des HTTP baseada na URL padrao para execucao 
de consultas no GFT, bem como no identificador unico da tabela no servico, é feita com 
o auxilio das fungdes disponibilizadas pela biblioteca libcurl*, que assume o papel de 
um cliente web integrado ao modulo. Essa abordagem simplifica a implementa¢ao do 
MyGFT, que repassa toda a responsabilidade pela manutengao dos dados pesquisados — 
incluindo a indexagao — ao GFT. 


Os dados encontrados pelo GFT apés a execugao das consultas sao encaminha- 
dos ao MyGFT no formato CSV. O modulo, entao, executa um parsing sobre esses da- 
dos convertendo-os no formato interno utilizado pelo MySQL para a representagao de 
campos e registros, repassando-os sem seguida a camada de acesso a dados do servidor. 
Deve-se observar que os dados recuperados do GFT nao sao replicados na base local, 
mas apenas transformados no formato interno do SGBD para o processamento das con- 
sultas. Assim, os registros recuperados podem ser usados de forma integrada a registros 
armazenados em tabelas locais (via jungdes ou subconsultas), como no exemplo a se- 
guir: uma tabela local (laudo_exame) é relacionada a tabela cid/0 armazenada no GFT, 
objetivando recuperar o identificador unico do laudo e o termo relacionado ao vocabula- 
rio controlado/estruturado (vide secao 4). 


mysql> SELECT le.id, c.nome_ subcategoria FROM laudo_exame le, cidl0 c 
WHERE le.codigo subcategoria = c.codigo subcategoria; 


* http://curl.haxx.se/libcurl/ 
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4. Cenario de uso — acesso a vocabularios controlados 


Sistemas de informagao desenvolvidos para a area da satde costumam utilizar um ou 
mais vocabularios controlados/estruturados. Esses vocabularios sao compostos por 
conjuntos de termos normalizados que objetivam padronizar a nomenclatura usada na 
area de forma a facilitar a indexacao de contetdo e diminuir a utiliza¢gao de texto livre. 
Vocabularios como DeCS (Descritores em Ciéncias da Satide)” e CID-10 (Classificacao 
Estatistica Internacional de Doengas e Problemas Relacionados com a Saide)° sao 
exemplos desses vocabularios; sua estruturacdo hierarquica permite representar nao 
apenas doengas, mas também termos pertinentes a areas como anatomia, compostos 
quimicos, equipamentos, dentre outras. 


Para que o contetdo desses vocabularios seja disponibilizado as aplicagées, ¢ 
uma pratica conhecida que suas estruturas hierarquicas sejam modeladas de maneira ad 
hoc em bancos de dados relacionais, resultando em diversos esquemas com particulari- 
dades especificas a cada aplicagao. Essa multiplicidade de esquemas pode influenciar 
negativamente o processo de integragao de dados entre sistemas (operacao comum na 
area da saude), bem como a busca de dados executada entre sistemas. 


A utilizagao do storage engine MyGFT prové uma alternativa viavel a criacgao de 
repositorios individuais (em cada sistema) para 0 armazenamento dos vocabularios con- 
trolados/estruturados. Sua caracteristica somente de leitura permite que diferentes siste- 
mas possam acessar o contetido de tabelas/visdes criadas diretamente no GFT, centrali- 
zando 0 acesso a conjuntos de dados comuns e que, tais como esses vocabularios, nao 
recebem atualizagdes constantes; de forma complementar, a restrigao de acesso imposta 
ao modulo garante a integridade das informac¢oées disponibilizadas, evitando que dife- 
rentes aplicacdes atualizem de forma indiscriminada o seu conteido e comprometam a 
semantica inerente a dados utilizados previamente. Outro aspecto favoravel a utilizagao 
do mddulo ¢€ a garantia de que, em caso de atualizacao de contetdo, 0 mesmo seja dis- 
ponibilizado imediatamente a todas as instancias locais em MySQL relacionadas as ta- 
belas no GFT; com isso, garante-se que todas as aplicagdes que compartilham os dados 
dos vocabularios passem a usufruir de uma visao atualizada, provendo uma integracgao 
de dados consistente. 


5. Trabalhos relacionados 


Modulos customizados tém sido usados como forma de integragao entre o modelo rela- 
cional e outros modelos de armazenamento, visando 0 aproveitamento das suas melho- 
res caracteristicas. O trabalho de [Ribas 2010] apresenta um modulo de armazenamento 
para a integragao do MySQL com Tabelas de Espalhamento Distribuidas (DHT); dife- 
rentemente deste trabalho (que foca no acesso a dados centralizados utilizando clientes 
distribuidos), os autores visam o desenvolvimento de um sistema caracterizado pela 
escalabilidade, descentralizacao, tolerancia a falhas e facilidade de uso, no qual os dados 
sao distribuidos. O trabalho de [Atwood 2007], por sua vez, objetiva o armazenamento 
de grandes volumes de dados em nuvem, visando escalabilidade. No presente trabalho, 


* http://decs.bvs.br/P/decsweb2012.htm 
° http://www.datasus.gov.br/cid10/v2008/cid10.htm 
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busca-se a centralizagao e o compartilhamento de dados pouco mutaveis, com volumes 
bem definidos, cuja escalabilidade nao é um fator determinante. 


6. Conclus6es e trabalhos futuros 


Este trabalho apresentou o storage engine MyGFT, um mddulo desenvolvido com o 
objetivo de integrar o SGBD MySQL ao servic¢o de gerenciamento de dados em nuvem 
Google Fusion Tables. Essa integragao visa permitir a recuperagao de conjuntos de da- 
dos armazenados em um reposit6rio centralizado, de forma que os mesmos nao preci- 
sem estar fisicamente replicados em diferentes sistemas de informacao, estruturados em 
esquemas definidos de maneira ad hoc. 


Os testes prévios executados com o mddulo, em um cenario de uso envolvendo 
os vocabularios controlados/estruturados DeCS e CID-10, atestam a possibilidade de 
recuperacao de termos desses vocabularios via MyGFT pela execugao de consultas cu- 
jos predicados intersectem os conjuntos de predicados suportados pelo GFT e pelo 
MySQL. O desempenho de busca, conforme esperado, ¢ inferior ao desempenho de 
acesso a dados locais; isso é justificavel pelo fato do acesso ao GFT via MyGFT envol- 
ver, além da execucao da consulta em si e do parsing sobre os dados encontrados, a 
construgao de uma requisi¢ao HTTP, o envio dessa requisi¢ao ao GFT, a construcao de 
uma resposta HTTP e 0 envio do conjunto de dados resultante ao MyGFT. Otimizagdes 
deste processo podem ser relacionadas como trabalhos futuros, englobando testes mais 
abrangentes envolvendo um maior numero de predicados e a implementacao de caches 
locais para a minimizacao do volume de dados trafegado. 
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